关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4379人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

联通三季报:宽移用户净增规模创新高,首次披露云收入数字

南方都市报 浏览 4556

初三男生杀害女同学前检索会担什么责 出庭时变胖变白

红星新闻 浏览 8325

上海实验室推出AI智能体"安全卫士":让机器人学会自我监督

科技行者 浏览 3340

律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

大象新闻 浏览 5578

上海集成电路产业版图再落一子,长电科技今天在沪投产

上观新闻 浏览 2606

邵佳一:退役画面还在脑海;做教练最适合我,离不开这个地方

懂球帝 浏览 3446

斯瓦泰克输高芙无碍晋级!波兰淘汰美国,连续3年跻身联合杯决赛

全景体育V 浏览 3519

达伦-本特:切尔西应该签回弟媳,他看起来依然很出色

懂球帝 浏览 3812

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

网易汽车 浏览 3502

洪九果品响退市警报,“榴莲大王”梦断资本路

斑马消费 浏览 4588

香港知名女星惹同性绯闻,和朋友关系举止亲密

你约电影 浏览 3412

他靠演反派爆火却对同事女儿一见钟情

张发林 浏览 5140

联大反击或剥夺美国重要资格 美恐难再与中同台论道

策略述 浏览 8774

自由媒体:F1第一季度营收增长53%,考虑加回一场中东分站

懂球帝 浏览 1188

太阳报:奥利塞帮助埃泽适应枪手新生活,二人经常会在线下棋

懂球帝 浏览 3878

日本首相选举局势突变 高市早苗的竞争对手出现了

极目新闻 浏览 7681

抢在苹果之前,三星推出三折叠手机

华尔街见闻官方 浏览 4047

四名日本U17国脚在阿贾克斯试训,并与富安健洋、板仓滉合影

懂球帝 浏览 2879

学者:此次"正义使命"演习最大的亮点就是"开局即打"

环球网资讯 浏览 25063

北京105-74广东3利好!曾凡博+斯佩尔曼轰最佳状态,三分联盟第1

篮球资讯达人 浏览 3663

萨拉赫还是萨卡?墨菲:萨拉赫,他总能进些不可思议的球

懂球帝 浏览 4100
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1