关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3265人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国武器出售清单大曝光:有了这些你就是大爷

浏览 7073

图片报:塔踩到了斯塔尼希奇此前受伤的右脚,使其退出训练

懂球帝 浏览 2035

初秋穿什么才最适合?准备好以下这些单品,日常穿衣不再发愁

静儿时尚达人 浏览 5410

范佩西首次征召儿子进入费耶诺德比赛名单,但并未安排他出场

懂球帝 浏览 2881

"最强大脑"齐聚临港 上海正搭建未来科学共同体

看看新闻Knews 浏览 3296

普京公开重要情报:全国人民都该了解

环球时报新闻 浏览 3044

戴墨镜出席达沃斯会议后 马克龙的支持率提升

参考消息 浏览 6168

苹果计划在明年 3 月推出全新改版 Siri “借鉴” Gemini 技术

威锋网 浏览 3172

71岁朱时茂近况曝光!曾连续登春晚舞台

汪巗的创业之路 浏览 1647

今年TVB已有7位老戏骨离世

萌神木木 浏览 3253

刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面

情感大头说说 浏览 2499

集成双4K摄像头与AI,雷蛇Project Motoko概念耳机亮相CES 2026

IT之家 浏览 2389

麻省理工学院发明“可注射”脑机芯片,有潜力用于治疗老年痴呆症

IT之家 浏览 2963

利物浦已遭遇英超四连败,上次顶级联赛五连败还是1953年

懂球帝 浏览 3172

泰国外长:泰柬将于12月24日举行会谈 讨论停火细节

财联社 浏览 2474

前央视主持人水均益直播 额头顶"中国人"纸条否认移民

极目新闻 浏览 8695

一块“十全十美”饼干,盛满星辰大海的甜

我们的太空 浏览 3173

古二再度放料!秦雯王家卫吐槽出现新人物

萌神木木 浏览 3032

特朗普第5次给莫迪打电话莫迪终于接了:75岁生日快乐

第一财经资讯 浏览 15153

拍完被雪藏3年,小沈阳新片观众不买账,成本超1亿,预售仅6万

靠谱电影君 浏览 3255

韩星在内娱吃相越来越难看?

萌神木木 浏览 2986
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1