关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro889人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大厂秋招又起:为什么“ATMD”成第一梯队

三言科技 浏览 14033

刚刚!利好突袭,直线爆拉!

中国基金报 浏览 792

对话工程院院士王浩:我国独创的“河湖长制”值得向“全球南方”国家推广

封面新闻 浏览 803

苏亚雷斯:有信心率领亚泰保级

体坛周报 浏览 1004

一个多月没了342亿,新东方在线持续受挫!俞敏洪慌不慌?

市界观察 浏览 19575

邱礼涛,为香港电影续命。

幕味儿 浏览 10893

“十五五”规划建议:共有15个部分、61条,分为三大板块

国是直通车 浏览 807

辽宁擒福建止连败 赵继伟8记三分破纪录付豪2分

网易体育 浏览 26400

美部署中导,王毅喊话俄罗斯,中俄肩并肩

浏览 11033

兰帕德有能,考文垂队史首次取得单赛季联赛六连胜

懂球帝 浏览 865

特斯拉Model3/ModelY Standard正式发布

网易汽车 浏览 1030

国家级5G智慧工厂背书,全新深蓝S07上市交付

经济观察报 浏览 1656

迪士尼官宣10亿美元投资OpenAI,允许Sora生成米老鼠等视频

IT之家 浏览 70

媒体:传来两个与石油相关的好消息 都与中国有关

上观新闻 浏览 16453

别随便穿搭,穿对了才高级

静儿时尚达人 浏览 13257

这些长裙模板千万别错过 又乖又飒!

巧百搭 浏览 15485

罗德里戈:安切洛蒂几乎赢得了一切,我们沉醉于他的执教

直播吧 浏览 16313

全国即将开启房票潮!

樱桃大房子 浏览 12540

靳东这波转型,真是让人佩服得五体投地。

小光侃娱乐 浏览 1672

售7.98万元 比亚迪2026款海豹05DM-i上市

网易汽车 浏览 1106

女子称13岁遭强奸后怀孕引产 报案近3年嫌犯尚未受审

澎湃新闻 浏览 89419
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1