关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12531人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

京东将造“廉价版蔚来”?可充可换电,价格将很感人

明镜pro 浏览 987

40岁的变美小心机 颜色不花哨款式要简洁

泰安秋子 浏览 19686

宁德时代:充电10分钟续航400公里快充电池年内量产

澎湃新闻 浏览 16380

郑丽文再次公布人事任命朱立伦尴尬了 洪秀柱罕见喊话

策略述 浏览 6754

场均2.70分,阿隆索登顶皇马主帅前10场西甲场均拿分榜

懂球帝 浏览 830

中纪委评论你好李焕英具体是怎么说的?

趣看热点 浏览 26288

特警参加任务失联 86天后妻子收到境外6字短信痛哭

社会奇闻君 浏览 117180

深夜,全线崩跌!发生了什么?

券商中国 浏览 266

聚焦进博|中资银行“金”点子护航进博会

国际金融报 浏览 704

以总理:将确保哈马斯解除武装

国际在线 浏览 988

连帽卫衣+牛仔裤,初春穿搭撩爆了!

Yuki女人故事 浏览 12734

《速度与激情9》上映首日票房破2亿,评分仅6分,下一部将来中国拍摄

趣看热点 浏览 27465

江苏一民企悬赏100万跨省征集官员违法线索:收到线索

潇湘晨报 浏览 79119

小夫妻从海南返程换3种交通工具花5000元 1天半才到家

新民晚报 浏览 79834

媒体:秦刚正在欧洲访问 美国舆论顿时紧张起来

环球网资讯 浏览 18614

字节CEO梁汝波内部讲话:多次提及危机感,2024年要始终创业

鞭牛士 浏览 12495

科学家开发“神经蠕虫”,实现颅内电极游走模式

DeepTech深科技 浏览 1669

51:44共和党临时拨款法案未获推进 政府"停摆"已两周

每日经济新闻 浏览 4615

52万元起售,电动Jeep想要“硬刚”特斯拉

上海汽车报 浏览 10805

戴维斯被视为活塞头号目标 梭哈年轻资产仍存疑虑

体坛周报 浏览 93

WTT多哈球星赛:孙颖莎3-0完胜日乒美女选手,技战术优势明显!

乒谈 浏览 12727
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1