只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。
现在的大模型在特定领域能够达到专家级表现已经不足为奇。
但是能不能让模型变小的同时,也能在特定领域达到接近专家级表现?
现在通常的答案就是「模型蒸馏」(Model Distillation)。
比如DeepSeek-R1发布时,顺带着也发布了多个蒸馏模型(R1模型参数为671B,蒸馏模型都比较小,1.5B、7B、14B等)。

那还有没有更好的办法?
这就是今天要讲的On-Policy Distillation(同策略/在线策略蒸馏)。
这是一个Thinking Machines整的新活,这个新策略既有强化学习等在线策略方法的相关性和可靠性;又具备离线策略(Off-policy)方法的数据效率。

Mira Murati认为这个策略可以让小模型提升特定领域的表现,还能持续学习。

Lilian Weng夸赞新方法「优雅」。认为这个策略提供了一种优雅的方式,将教师模型作为过程奖励模型来提供稠密奖励。

特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 50万亿天量存款将到期
- 山东新设立4所大学
- 刘强东腊八下单万件年货送老乡
- 肯德基回应涨价
- “一人公司”的风吹到了深圳
- 董明珠卸任 格力电子元器件公司换帅
- 在广东发现人家的高级晾衣法,做法太高明了,后悔没早看到!
- 防滑砖选什么牌子好?现在客厅流行什么瓷砖,瓷砖品牌TOP6榜单揭晓
- 20款中古风衣柜书桌一体设计,千万别错过!
- 拒绝土味公主风!2026受欢迎的粉色儿童房长这样
- 门窗十大品牌 2026年广东门窗十大品牌排行榜发布,速来围观!
- 太原人注意!燃气灶旁四类物品千万不要放!
- 齐河活动地贴定制!把地面变成您的黄金广告位~
- 案例分享丨装饰“一棵祈愿树”,CELINE 借差异化新春叙事回应集体情绪
- 值得购买的吸顶灯品牌,家用护眼优先
- 要让家越来越旺,藏在日常里的这几个门道,家家都能做到
- 2026最新徐州瓷砖空鼓维修公司推荐:就选艾家瓷砖空鼓维修公司
- 今年北京将提供不少于10万个高校毕业生就业岗位
- 寒假将至,校长致班主任的一封信