爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

他一夜干出2...

佟丽娅最新古...

卷首语 | ...

宁波方正携手...

阿维塔王金海...

⌚⭐戴表绝杀...

阿隆索：我们在安菲尔德跑动太少？不能凭一场比赛下结论

美职联季后赛东部对阵：迈阿密国际VS纳什维尔，赛制三局两胜

纯电续航325km 小鹏P7+增程版申报信息曝光

4年3冠！王牌大比分4-0横扫水星夺冠，阿贾-威尔逊31+9+4

极越汽车获得 L3 自动驾驶测试牌照，即将“全国都能开”

20万请曹姓明星带货3个月成交278元公司起诉法院判了

窦骁现身影院支持张艺谋女儿新片全程忙前忙后

主流纯电颠覆者！吉利银河E8上市，抢占主流新能源车定价权

以中将连忙灭火：这种情况绝对不能开枪

卢卡库或助曼联签奥纳纳！德赫亚有望获沙特加薪，可与C罗再合作

2023年现代集团美国市场销售165万辆排名第四！

以高官“鼓励加沙巴勒斯坦人迁移”引争议

普京：感谢中国对乌克兰问题采取平衡的态度

70后女性最有效的减龄打扮，不显老不花哨，老了也是一枝花

美媒：天津造空客飞机将首次交付欧洲客户

中国加速构建具身智能数据标准体系 “浦江X”平台发布

今年流行的多巴胺穿搭，太减龄了！

新能源购置税免征时代，正在结束

复旦哲学教授：ChatGPT的最大瓶颈和人工智能的未来

五季以来，第一个退出《再见爱人》的嘉宾出现了

尹锡悦看守所内收超6.5亿韩元代管金系总统年薪2.5倍

零跑C16上市，15.58万元起售，配置是亮点

拉萨的年轻人，原来是这样生活的

52岁颜丙燕官宣恋情！小20岁男友被拍