2月22日,2025全球开发者先锋大会“语料筑基 智生时代”主题论坛在上海漕河泾会议中心圆满举办。论坛由全球开发者先锋大会组委会指导,由上海库帕思科技有限公司承办,漕河泾开发区总公司、上海人工智能实验室、商汤科技、阶跃星辰、稀宇科技等公司联合协办。上海市经济和信息化委员会副主任张宏韬,徐汇区委常委、副区长俞林伟出席论坛并致辞。
会议深度聚焦大模型语料前沿主题,汇聚产学研用顶尖智慧,共同探讨语料数据发展的无限机遇与潜力,共建上海大模型语料繁荣生态,为人工智能大模型创新发展和应用注入新动能。为进一步促进高质量语料数据建设,库帕思在市经济和信息化委的指导下,以普惠、链接、创新的态度,携手首批103家企业、科研机构和专家学者,联合发起成立上海市人工智能行业协会语料工作委员会,中文在线成为首批加入的企业之一。中文在线深耕数字文化领域二十余年,积累了海量高质量数字内容。基于自研大模型的数据需求,公司持续整合多种类型的优质数据,涵盖文字、音频、图片、视频等多模态内容。目前,中文在线已拥有300万册中英文出版物、300万余部原创文学作品、20万+小时有声书及干音、百万级视频数据,以及亿级图片、题库、期刊、行业问答、中外文平行语料等近40种文字和多模态语料及成品语料集。凭借丰富的数据服务经验、完善的数字内容安全审查体系及领先的技术能力,确保大模型数据的高质量与安全性。集团已经与数十家大模型达成数据及数据服务合作,合作伙伴涵盖央国企、互联网巨头及AI新势力等行业头部企业。《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》中明确提出,要构建语料数据资源共建共享机制。而语料数据的建设与完善直接关系到人工智能模型的训练效果和应用场景的通用性。上海市人工智能行业协会语料工作委员会将围绕高质量语料建设,通过优化语料平台与各垂类应用领域链接机制,促进语料方、模型方、应用场景方三方合作模式跑通落地,从而构建高质量、具备应用价值的语料生态。未来,中文在线将依托自身在数字内容领域的深厚积累和技术优势,积极参与上海市人工智能行业协会语料工作委员会的各项建设工作,携手行业伙伴,共同构建开放共赢的语料生态,为大模型的高质量发展贡献力量。