DeepSeek-R1 公布后,已经有团队跟进利用...
- 蚁工厂
- 2025-01-25 10:25:11
DeepSeek-R1 公布后,已经有团队跟进利用 DeepSeek-R1 的推理能力,通过精馏 (distillation) 的方式训练更小的模型了。
Bespoke实验室公布了他们的成果: Bespoke-Stratos-32B。尽管训练样本数量远少于其他模型(例如,比 DeepSeek-R1-Distill-Qwen-32B 少 47 倍),但 Bespoke-Stratos-32B 在 AIME2024、MATH500、LiveCodeBench 等多个基准测试上超越了 o1-preview,并且接近了 DeepSeek-R1-Distill-Qwen-32B 的性能。
这项工作证明了通过精心设计的数据精馏流程,可以利用少量的高质量数据,将大模型的推理能力有效地转移到小模型上,从而在保持高性能的同时降低模型的规模和计算成本。同时他们还开源了训练数据和代码。
AI创造营
Bespoke实验室公布了他们的成果: Bespoke-Stratos-32B。尽管训练样本数量远少于其他模型(例如,比 DeepSeek-R1-Distill-Qwen-32B 少 47 倍),但 Bespoke-Stratos-32B 在 AIME2024、MATH500、LiveCodeBench 等多个基准测试上超越了 o1-preview,并且接近了 DeepSeek-R1-Distill-Qwen-32B 的性能。
这项工作证明了通过精心设计的数据精馏流程,可以利用少量的高质量数据,将大模型的推理能力有效地转移到小模型上,从而在保持高性能的同时降低模型的规模和计算成本。同时他们还开源了训练数据和代码。
AI创造营