关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12534人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4年3冠!王牌大比分4-0横扫水星夺冠,阿贾-威尔逊31+9+4

懂球帝 浏览 1036

极越汽车获得 L3 自动驾驶测试牌照,即将“全国都能开”

IT之家 浏览 12455

20万请曹姓明星带货3个月成交278元 公司起诉法院判了

都市快报橙柿互动 浏览 113101

窦骁现身影院支持张艺谋女儿新片 全程忙前忙后

扒虾侃娱 浏览 13879

主流纯电颠覆者!吉利银河E8上市,抢占主流新能源车定价权

车市红点 浏览 12884

以中将连忙灭火:这种情况绝对不能开枪

环球网资讯 浏览 13165

卢卡库或助曼联签奥纳纳!德赫亚有望获沙特加薪,可与C罗再合作

罗米的曼联博客 浏览 15695

2023年现代集团美国市场销售165万辆 排名第四!

郑谊 浏览 12708

以高官“鼓励加沙巴勒斯坦人迁移”引争议

环球网资讯 浏览 12880

普京:感谢中国对乌克兰问题采取平衡的态度

人民网-人民日报 浏览 109707

70后女性最有效的减龄打扮,不显老不花哨,老了也是一枝花

静儿时尚达人 浏览 11251

美媒:天津造空客飞机将首次交付欧洲客户

环球网资讯 浏览 16087

中国加速构建具身智能数据标准体系 “浦江X”平台发布

上观新闻 浏览 1594

今年流行的多巴胺穿搭,太减龄了!

小西的穿搭日记 浏览 16748

新能源购置税免征时代,正在结束

盖世汽车 浏览 887

复旦哲学教授:ChatGPT的最大瓶颈和人工智能的未来

澎湃新闻 浏览 18069

五季以来,第一个退出《再见爱人》的嘉宾出现了

仙女事件簿 浏览 831

尹锡悦看守所内收超6.5亿韩元代管金 系总统年薪2.5倍

鲁中晨报 浏览 5365

零跑C16上市,15.58万元起售,配置是亮点

油门到底ACC 浏览 11003

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 727

52岁颜丙燕官宣恋情!小20岁男友被拍

青梅侃史啊 浏览 1010
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1