用1/10成本就能「吊打」强化学习,Thinking Machines最新一篇文章开源的这个策略,不看真OUT了!可在Tinker直接复现。

现在的大模型在特定领域能够达到专家级表现已经不足为奇。

但是能不能让模型变小的同时,也能在特定领域达到接近专家级表现?

现在通常的答案就是「模型蒸馏」(Model Distillation)。

比如DeepSeek-R1发布时,顺带着也发布了多个蒸馏模型(R1模型参数为671B,蒸馏模型都比较小,1.5B、7B、14B等)。


那还有没有更好的办法?

这就是今天要讲的On-Policy Distillation(同策略/在线策略蒸馏)。

这是一个Thinking Machines整的新活,这个新策略既有强化学习等在线策略方法的相关性和可靠性;又具备离线策略(Off-policy)方法的数据效率。


Mira Murati认为这个策略可以让小模型提升特定领域的表现,还能持续学习。


Lilian Weng夸赞新方法「优雅」。认为这个策略提供了一种优雅的方式,将教师模型作为过程奖励模型来提供稠密奖励。