(资料图片)
海天瑞声CEO王晓东 每经记者 李少婷 摄
5月26日下午“媒体日”活动中,海天瑞声(SH688787,股价142.58元,市值61.44亿元)CEO王晓东宣布升级企业品牌,中文名称“海天瑞声”不变,英文名称由“Speechocean”升级为“Dataocean AI”。
王晓东介绍海天瑞声时,以数据时代“高质量水泥提供商”自比:“现在叫数据时代,(需要)新基础设施建设,我们是提供高质量‘水泥’的。高楼大厦平地起,盖房子、做新基建,都需要‘水泥’,数据时代一切的基础都需要数据。”在今日(26日)上午的“中关村论坛”上,王晓东宣布海天瑞声将首次开放DOTS-MM-0526多模态数据集,包括音频、视频、文本等信息,希望借此为中国人工智能开放生态建设贡献力量。
当前,大语言模型带来的热潮仍在持续,海天瑞声受益于相关概念,市场关注度较高。海天瑞声对当前的市场有何判断?在回应《每日经济新闻》记者提问时,王晓东表示,数据服务市场当前主要是品牌数据服务商和客户自建团队,包括中小型数据服务商构成,“大模型之后,我们的判断是,整个数据服务市场将进行一次洗牌,集中度也将进行一次提升”。
王晓东认为,竞争主体将通过技术的研发投入以及资源能力建设竞逐市场,将研发能力弱、资源资质差的主体将被淘汰。此外,国家对于数据安全和合规要求更高,不具备数据安全合规能力的企业也将被淘汰。而客户自建团队部分,或会是出于客户自身对数据和业务的敏感性和保密性的需求,可能会长期共存。
大模型相关的数据服务与以往有何不同?海天瑞声CTO黄宇凯表示,大模型在预训练阶段数据的获取和数据清洗有更高的要求,在微调/对齐阶段,需要更高质量的prompt,“这件事情非常难”。这使得对标注人员的要求更多,也需要管理者更好的培训标注人员。大模型时代另外非常重要的一点是评测回答的价值观“有用且无毒”,平衡的难度较高。
关键词: