LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增
大语言模型智能体的强化学习框架, 首次实现了通用的多智能体的“群体强化”。
在大语言模型(LLM)智能体的各种任务中,已有大量研究表明在各领域下的多智能体工作流在未经训练的情况下就能相对单智能体有显著提升。
但是现有的LLM智能体训练框架都是针对单智能体的,多智能体的“群体强化”仍是一个亟须解决的问题。
为了解决这一领域的研究痛点,来自UCSD和英特尔的研究人员,提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。
研究背景
大语言模型驱动的多智能体系统在医疗、编程、科研、具身智能等多个领域均能大幅度提升任务表现。
为训练大模型智能体,Group Relative Policy Optimization (GRPO) 已被验证为通用的有效强化学习算法。然而,当前所有针对LLM的强化学习训练框架,包括GRPO算法本身,都局限于单智能体训练的范畴。多智能体间的协作优化,即“群体强化”的学习机制,仍然是一个亟待填补的空白。
GRPO算法的核心机制是,针对同一个输入(prompt),通过多次采样生成一组候选回答。随后,算法在组内对这些回答进行评估(例如,通过一个奖励模型),并计算它们之间的相对优势。
这种优势计算的有效性与公平性依赖于一个关键假设——组内所有用于比较的候选回答,都必须基于一个完全相同的上下文(即prompt)生成。
然而,将GRPO直接应用于多智能体(multi-agent)多轮(multi-turn)环境中存在一个核心困难。
在多智能体场景下,即使是针对同一个初始问题,不同智能体在不同轮次接收到的prompt差异显著。
例如(如图所示),一个负责编程的智能体,其在第二轮的prompt不仅包含原始问题,还可能融合了第一轮中自己生成的代码以及其他智能体生成的单元测试。
特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1024程序员节京东开放“零帧起手”数字人技术
- 杭州“六小龙”首次齐聚乌镇同台对话!聊AI、机器人,谈未来……
- 荒野第一深情”林北称玩不下去了
- 陕西一小伙结婚当天驾自制“飞机”成功飞天?村民称是他朋友来助兴,飞机5年前就首飞过,民航空管局回应
- 进博会观察 | 高通分享6G愿景:2028年有望推出预商用终端
- 董宇辉:文化的力量是巨大深厚的,它能感染人,也能温暖人,更能激励人
- 对话张朝阳:人生一定要折腾,要积极的做事情 | 直击乌镇
- 节奏似折返跑!开拓者131-136不敌热火 杨瀚森连续4场未获出场时间
- S15决赛:DRX剧本还是史无前例三连冠!KT大战T1
- LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增
- Q3移动智慧屏全渠道销量涨29% 线下市场高速增长
- 高通骁龙8 Gen5本月底亮相:一加全球首发
- 疑似一加15T爆料:7000+mAh电池、3D超声波指纹
- 苹果闷声发大财,iPhone 17系列国内销量太恐怖
- “非洲互联网之父”尼·奎诺:在互联网发展进程中“南南合作”更为紧密
- 淘宝闪购“爆火好店”李子坝梁山鸡:外卖订单翻番,不做“网红”做“长红”
- 为年轻心态而来 打造全球化主流车型 零跑Lafa5预售高层专访
- 想买SUV准备好钱包!年内这5款重磅SUV轮番上,谁是真的火?
- 进博观察:绿色与数字双轮驱动:全球产业链的重塑与升级
- 月之暗面Kimi K2 Thinking训练成本460万美元,性能超OpenAI模型