DeepSeek-R1 公布后，已经有团队跟进利用...

蚁工厂
2025-01-25 10:25:11

DeepSeek-R1 公布后，已经有团队跟进利用 DeepSeek-R1 的推理能力，通过精馏 (distillation) 的方式训练更小的模型了。
Bespoke实验室公布了他们的成果： Bespoke-Stratos-32B。尽管训练样本数量远少于其他模型（例如，比 DeepSeek-R1-Distill-Qwen-32B 少 47 倍），但 Bespoke-Stratos-32B 在 AIME2024、MATH500、LiveCodeBench 等多个基准测试上超越了 o1-preview，并且接近了 DeepSeek-R1-Distill-Qwen-32B 的性能。
这项工作证明了通过精心设计的数据精馏流程，可以利用少量的高质量数据，将大模型的推理能力有效地转移到小模型上，从而在保持高性能的同时降低模型的规模和计算成本。同时他们还开源了训练数据和代码。

AI创造营