爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

特朗普要求日...

成本上升、缺...

全球首家！速...

今年流行“毛...

伊朗并未请求...

2026款捷...

实测 Kimi K2.5 新版本，一键让一群 AI 来给我打工。

EXO见面会遭抵制！官宣12月13日举办，中粉大骂公司要求改期

会打扮的中年女人，冬季穿搭靠这3个套路封神！保暖还时髦

王心凌再回应与吴克群绯闻

月薪7000的抽卡师，只是AI短剧的「临时工」

福建女商人林惠荣提国赔申请获立案曾服刑7年获无罪

男子称爷爷坟里埋了200万女友给他272万发现其是老赖

64岁男演员春节在景区打工，暴瘦引担忧！

亚马逊将对意大利反垄断罚款提出上诉：一分钱都不该罚

马竞重新投入训练备战贝蒂斯，卡多佐是唯一缺席训练的球员

11国做出选择后特朗普喊话＂中国将服软＂高市处境堪忧

白宫发了张图：“痛击加拿大鹅”

收评：沪指涨超1%逼近4000点两市放量超3600亿

双11链接合集 || 一键查缺补漏，这些宝藏别错过！

俄美乌首次三方会谈触及实质议题领土问题仍有分歧

黄子佼为脱罪庭上卖惨！自曝离婚请求轻判，律师痛批毁掉别人一生

xbench实验室发布：如何让AI代理真正走进普通用户的日常生活？

业内曝窦骁遭遇豪门杀猪盘，被女方当跳板？

小S久违晒自拍美照，容光焕发状态超好

英国防大臣称访乌克兰途中专列险被俄“榛树”导弹命中

男子给女友买的金镯子被放在门口丢了顺丰只赔200元

有种的冲这儿打！

比亚迪10月销售441706辆新能源累计销售超1420万辆

【年度爱用】她们2025年买得最值的，是这些