关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3263人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白百何疑开撕王传君!曝沪圈要求文晏给男方撕奖,白百何发文内涵

萌神木木 浏览 2943

AI狂热不敌冷峻现实:企业下调AI代理预期,实现全自动化仍需数年时间

华尔街见闻官方 浏览 3083

伊能静没有代表作

江湖人称艾掌门 浏览 3534

工信部:将会同有关部门加强养老服务机器人研发

IT之家 浏览 2963

前三季度增利不增收,三全食品错失预制菜风口后押注肉制品

时代周报 浏览 3239

塞内加尔一度罢赛,摩洛哥足协投诉

体坛周报 浏览 2207

陈数全家福火了!83岁妈妈坐轮椅却气场全开

小椰的奶奶 浏览 1716

入职要姓“鼠”?三只松鼠工作人员回应

第一财经资讯 浏览 2908

排除乌欧参与引发解读 普京与美特使谈了5小时

环球网资讯 浏览 2775

NBA战报:尼克斯134-98狂胜篮网取NBA4连胜,唐斯28+12+2

懂球帝 浏览 3085

看完《蜜语纪》里的“穷人”生活,对不起我给穷人拖后腿了

娱乐圈笔娱君 浏览 282

鹈鹕114-104战胜公牛,锡安复出得18+6,墨菲20+10

懂球帝 浏览 2661

打破29个月冠军荒!梅总终于赢了!

网球之家 浏览 3433

美联储降息25基点 预计2026年降息一次

网易财经 浏览 2676

比亚迪双旗舰谍照来了!大汉/大唐,更大、更强

车市红点 浏览 2579

央行:1月23日将开展9000亿元1年期MLF操作

央视财经 浏览 2166

背靠OpenAI的机器人初创1X亮相CES展示家务机器人,售价2万美元

华尔街见闻官方 浏览 2404

伊姐元旦热推:电视剧《人之初》;电视剧《轻年》......

伊周潮流 浏览 2426

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻 浏览 2051

在巴林的中国旅客亲历空袭:你听!导弹又来了

澎湃新闻 浏览 1518

傍上 “新中式”,现制酸奶能迎来 “二次爆发” 吗?

餐饮老板内参 浏览 2813
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1