关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4382人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

五菱开年礼 购指定新能源车型立享购置税补贴

网易汽车 浏览 3538

图片报:多特有意巴萨小将吉列,球员合同2027年到期

懂球帝 浏览 4538

墨西哥总统宣布将向古巴提供援助并推动恢复石油供应

上观新闻 浏览 3108

英媒打脸特朗普:发出威胁后率先退让 是巨大战略失败

澎湃新闻 浏览 62006

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 9694

实用|| 百元外套穿出万元既视感,这个思路太妙了!

黎贝卡的异想世界 浏览 3753

高云翔深夜在天津街头淋雪,边走边笑

观察鉴娱 浏览 3427

美国升级行动逼迫马杜罗 多国声援委内瑞拉

环球网资讯 浏览 2959

小米穿越风暴这一年,给创新者以时间

中国企业家杂志 浏览 3485

AMD Q1营收超预期增长38%,数据中心业务大增57%,二季度指引超预期

华尔街见闻官方 浏览 1216

在这场战争中特朗普的致命弱点是什么?

智本社 浏览 2721

“最帅升旗手”张自轩结婚了

说点事 浏览 3559

媒体:美国对台军售 本质是在加重中华人民共和国负担

新民周刊 浏览 9363

落地11万,现在的速腾还能买吗?

正在说车 浏览 3764

二排有大屏还有高阶辅助驾驶 风云T9L明年一季度上市

网易汽车 浏览 3711

铜铜铜,快要高攀不起了

每日资本论 浏览 3778

内娱最癫综艺,又出来「作妖」了

娱乐圈笔娱君 浏览 1938

马塞利诺:虽然很困难,但我们想要击败尤文图斯

懂球帝 浏览 5165

俄副总理称亲自参战:用狙击步枪在乌军袭击时还击

鲁中晨报 浏览 4122

腾讯回应元宝崩了

第一财经资讯 浏览 3188

今年冬天最流行的4双鞋,配阔腿裤时髦又高级!

LinkFashion 浏览 3174
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1