关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12533人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“头锋”?吧友评坎帕纳:9.6分,双逆足但是会头球

直播吧 浏览 14116

今年有气质的女人都在穿“风衣”,适合春天,不仅时尚还保暖

静儿时尚达人 浏览 12881

热搜上消失的女明星,正在偷偷养鸡

Yuki女人故事 浏览 1074

美菲又在南海挑衅 中国军舰一句话回应

大象新闻 浏览 12916

存储芯片超级周期来袭!江波龙股价两个月涨超200%!超85亿存货在手

时代周报 浏览 727

近期生产安全事故频发 相关部门分析原因

央视新闻客户端 浏览 78545

下辈子换我长郑恩彩这样好吗?

时尚COSMO 浏览 735

美联储的“十字路口”

21世纪经济报道 浏览 1643

专场招聘、优化政策……各地为毕业生就业创业保驾护航

环球网资讯 浏览 15388

今年最火的5双鞋,承包一整年的好看时髦!

LinkFashion 浏览 13184

中大型SUV新选择,星途星纪元 ET将于1月17日下线

天天汽车 浏览 13045

青创人才说 | 柒色莲生物汪会兵:当好iPSC细胞疗域“铺路人”

上观新闻 浏览 219

就两岸关系 郑丽文、马英九最新表态

新京报政事儿 浏览 5646

苏宁银行改名苏商银行后,有什么变化

湘财Plus 浏览 10824

贾玲瘦身成功!为电影闭关半年暴瘦100斤撞脸苗圃

萌神木木 浏览 12896

丰田新款Land Cruiser FJ最新消息曝光

乐选爱车 浏览 835

59元钓鱼3小时,年轻人只想静静

中国企业家杂志 浏览 981

越级空间 长安启源A06上市售10.99万元起

网易汽车 浏览 613

基金跌了 怎么办?大数据告诉你

上海证券报 浏览 26470

俄主动向美通报:核动力巡航导弹上天 射程"几乎无限"

上观新闻 浏览 6273

美国政客拿中国说事邀请印度加入"北约+" 印度拒绝了

环球时报国际 浏览 90422
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1