关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19090人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国安机关对相关企业公开执法 外交部回应

环球网 浏览 116456

纯电续航可达700km AMG GLC 53 EQ谍照曝光

车质网 浏览 693

售价为2990元,别克E4哆啦A梦主题套件上市

天天汽车 浏览 12430

车企“灵魂论”彻底“失声”?

盖世汽车 浏览 1431

明明家世显赫,却凭实力成为世界冠军

梁蜱爱玩车 浏览 1027

高市早苗再有新动作日本准备拥有核武 中俄要早做准备

头条爆料007 浏览 42320

超300倍就清零!超高位科技股突然暴跌,中芯国际重挫7%

深蓝财经 浏览 977

“塌房失败”的李雪琴给所有人上了一课

乡野小珥 浏览 569

作秀式调研书记涉案超1亿:支持他人写书宣扬其"功绩"

新京报 浏览 75230

曝白百何资源受影响!好友还在嘴硬,多位业内下场内涵:太任性了

萌神木木 浏览 624

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 747

特朗普突然改口:暂时不想见普京 浪费时间

北京日报客户端-长安街知事 浏览 804

受益于油气需求回暖 "三桶油"上半年净赚1255亿

证券时报 浏览 20484

万达轴承:建设项目信披陷“罗生门” 已竣工背后转固金额现疑云

金证研 浏览 12504

台"看守内阁"官员摆烂 媒体人:他们没把赖清德放眼里

海峡导报社 浏览 70460

综合续航超1400公里 奇瑞风云T9是你的菜吗?

汽车经纬网 浏览 13076

国家安全机关:坚决粉碎台湾情治部门渗透破坏

国家安全部 浏览 76401

以色列总理称拒绝哈马斯提出的停火要求

央视新闻客户端 浏览 12281

兹维列夫脚踝受伤遭横扫,严重肿胀紧急求医,总决赛征程蒙上阴影

网球之家 浏览 741

她被骂“文盲”影后,如今搭档黄轩交出满意答卷

仙味少女心 浏览 852

中国公民在中非共和国遇袭致9死2伤 外交部回应

环球网资讯 浏览 19332
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1