只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。
现在的大模型在特定领域能够达到专家级表现已经不足为奇。
但是能不能让模型变小的同时,也能在特定领域达到接近专家级表现?
现在通常的答案就是「模型蒸馏」(Model Distillation)。
比如DeepSeek-R1发布时,顺带着也发布了多个蒸馏模型(R1模型参数为671B,蒸馏模型都比较小,1.5B、7B、14B等)。

那还有没有更好的办法?
这就是今天要讲的On-Policy Distillation(同策略/在线策略蒸馏)。
这是一个Thinking Machines整的新活,这个新策略既有强化学习等在线策略方法的相关性和可靠性;又具备离线策略(Off-policy)方法的数据效率。

Mira Murati认为这个策略可以让小模型提升特定领域的表现,还能持续学习。

Lilian Weng夸赞新方法「优雅」。认为这个策略提供了一种优雅的方式,将教师模型作为过程奖励模型来提供稠密奖励。

特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1024程序员节京东开放“零帧起手”数字人技术
- XREAL全球总部正式启用,将以浦东为新起点迈向AI+AR智能终端新时代
- 全球第25名!iPhone 17系列DXO屏幕测试出炉 获护眼认证
- 全球首款内折三折叠手机:三星展示 Galaxy Z TriFold
- OPPO双十一选机攻略 学生党省钱必选Find X8s
- 2399元起!影石X4-Air发布 全球最轻8K全景相机
- 菜鸟向多国快递公司交付自动化分拨中心
- 电商生态需要更强的“质量信号”
- 飞书加入双11,要给商家造“铲子”
- 比尔盖茨女儿也AI创业了!时尚电商,刚被塞了800万美元投资
- 只要强化学习1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技
- 小鹏汽车市值超过理想汽车
- 电气时代新体验 奔驰全新纯电CLA
- 9.98万起,2026款宋L DM-i上市,纯电续航高达200km,标配云辇C!
- Ultra5 225+铭瑄H810I+索泰5070+Meshroom装机
- Keeta上线阿布扎比,美团国际化业务进一步拓展
- 2025年Q3全球PC出货量同比增长8.1%
- 三星的“价格盾牌”:独家优势有望让Galaxy S26系列手机免于涨价
- 消息称三星首款三折叠手机首发或仅限部分地区,无缘美国
- 2K 屏 + 7500mAh !这 2299 元新机有点香啊