关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3264人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

4平米阳台爆改“卧室”、110平3房有15平阳台!中建东孚中环麓岛“高得房率神话”背后

地产深度报道 浏览 3221

马斯克称新款特斯拉Roadster是“超越汽车范畴的特殊产品”

IT之家 浏览 4213

伊拉克国防部:已全面接管阿萨德空军基地

极目新闻 浏览 2246

“强制接管”, 西方这是明抢了?

观察者网 浏览 3461

谢霆锋现实长什么样?路人镜头暴露真实身高,突然理解李诞了

温柔娱公子 浏览 3375

《向往》收视回暖!黄磊动手做饭,明星干农活

萌神木木 浏览 3203

英伟达向CoreWeave追加投资20亿美元,首推独立CPU芯片

华尔街见闻官方 浏览 2172

哈马斯证实达成加沙停火协议

CCTV国际时讯 浏览 2922

A股年内近160股易主

北京商报 浏览 2853

致敬 S14 第五冠队服,雷蛇推出巨甲虫 V2 Faker 款游戏鼠标垫

IT之家 浏览 3483

嫁给汪涵17年,细扒杨乐乐心酸现状,她的选择真的对吗?

不八卦会死星人 浏览 3540

还是这些穿搭最适合秋天,以基础款为主、针织衫配裙子,很显气质

静儿时尚达人 浏览 3206

未婚未育男子将遗产留给外甥遗嘱却写错名字 法院判了

环球网 浏览 8814

熊黛林带双胞胎女儿旅行,2个女儿长得完全不一样

素素娱乐 浏览 2179

走过五年黑暗隧道后,江小白靠一瓶酒杀回来

财经无忌 浏览 2290

售35.98万元起 第二代腾势D9正式上市

网易汽车 浏览 39

国乒官宣!王楚钦孙颖莎领衔出战亚锦赛,战果影响伦敦世乒赛资格

乒谈 浏览 4100

美拉德过时了?今年冬天最火的4个颜色竟然是它们

LinkFashion 浏览 2260

卫星互联网低轨 12 组卫星发射成功,长征系列火箭 600 次里程碑

IT之家 浏览 3563

从宗馥莉到王思聪 为何企二代陷"接班困局"?

BT财经 浏览 3399

暴涨的白银有色,白银竟是地名!股民懵逼

财通社 浏览 2197
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1