关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3260人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普透露夜袭细节:"堡垒"中抓走马杜罗

新华社 浏览 2330

E句话|福原爱,再婚怀孕

仙女事件簿 浏览 2562

曝国际巨头拟裁员3万人,多家美银行停止相关项目贷款;老外吐槽国产手机:为了像苹果,3个摄像头里1个是假的;闻泰业绩变脸:巨亏135亿元

雷峰网 浏览 2088

美特使被指教俄外交官"吹捧"特朗普 美媒披露通话记录

澎湃新闻 浏览 32505

10位院士与会 2025中国自动化大会成功举行

网易科技报道 浏览 3483

兰帕德有能,考文垂队史首次取得单赛季联赛六连胜

懂球帝 浏览 3301

牛弹琴:针对16岁以下的孩子 澳洲干了件前所未有的事

现代快报 浏览 7582

张馨予华丽回归ELLE盛典,25斤重礼服惊艳全场

洲洲影视娱评 浏览 3129

赛英电子治理“黑洞”:IPO前人事动荡,保荐机构入股,独董适格性存疑|读懂IPO

时代周报 浏览 2357

北大腾讯团队只改一行代码,让AI图像生成效果提升20%!

科技行者 浏览 2156

特朗普取消"特普会"对俄追加制裁 俄发出强烈威慑信号

上游新闻 浏览 7667

11国做出选择后特朗普喊话"中国将服软" 高市处境堪忧

胥言 浏览 7941

熊园:“十五五”大方向已定,如何跟踪?

首席经济学家论坛 浏览 3325

杨紫新剧《家业》改《祯娘传》!央视力推

东方不败然多多 浏览 2356

“吹哨人”,最高奖励100万!

中国基金报 浏览 2391

美国国务院要求美国公民立即离开伊朗

新华社 浏览 2047

今秋要穿这15条裙子!上身绝美,太撩人了!

Yuki女人故事 浏览 3441

广东3配角齐爆太惊喜!杜润旺陈家政三分即插即用,焦泊乔终暴走

篮球资讯达人 浏览 2351

足球报:曾有公司有意收购广西平果,但因欠账问题方面没谈拢

懂球帝 浏览 2526

前三季度GDP增速暂居全国首位,湖北挑战“中部第一省”

时代周报 浏览 3173

俄朝站队怒批高市 特朗普迅速与日切割中方警告很罕见

现代小青青慕慕 浏览 47404
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1