DeepSeek影响究竟有多大

黄建同学
2025-01-29 22:20:37

小成本复现DeepSeek R1-Zero！
3B模型竟能自主进化出数学推理能力！

UC伯克利 Jiayi-Pan 和其他研究员，仅用<30美元在数字游戏《CountDown》中成功复现DeepSeek R1-Zero算法，验证了小型语言模型通过RL自主进化出惊人能力。

核心突破：
1. 3B基础模型(Qwen-2.5)通过纯RL训练
2. 自主习得「解决方案生成→自我验证→迭代修正」完整推理链
3. 在算术游戏中对标人类解题策略

关键发现：模型容量决定智能涌现：
- 0.5B模型只会随机猜测
- 1.5B+模型突现搜索/验证能力
- 3B模型成绩提升400%

技术启示：
1. 基础模型质量>复杂算法设计
2. RL可激发小型LM隐藏潜能
3. 为轻量化AI Agent开发指明新方向

访问：github.com/Jiayi-Pan/TinyZero

DeepSeek影响究竟有多大 DeepSeekR1成AI发展转折点 DeepSeek