只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

用1/10成本就能「吊打」强化学习，Thinking Machines最新一篇文章开源的这个策略，不看真OUT了！可在Tinker直接复现。

现在的大模型在特定领域能够达到专家级表现已经不足为奇。

但是能不能让模型变小的同时，也能在特定领域达到接近专家级表现？

现在通常的答案就是「模型蒸馏」（Model Distillation）。

比如DeepSeek-R1发布时，顺带着也发布了多个蒸馏模型（R1模型参数为671B，蒸馏模型都比较小，1.5B、7B、14B等）。

那还有没有更好的办法？

这就是今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。

这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

Mira Murati认为这个策略可以让小模型提升特定领域的表现，还能持续学习。

Lilian Weng夸赞新方法「优雅」。认为这个策略提供了一种优雅的方式，将教师模型作为过程奖励模型来提供稠密奖励。