中国 AI 大爆炸：中国AI公司...

岳东晓博士
2025-01-22 08:10:13

中国 AI 大爆炸：中国AI公司 DeepSeek 开源了其R1 思维模型以及相关理论与算法。DeepSeek-R1 已经与 OpenAI-o1 持平，而且开源。更令人振奋的是，DeepSeek 的 R1 思维训练模板可以用来蒸馏现有的小模型，使这些小模型也具备了思维能力。下面是我阅读其论文并测试的初步总结。1. 理论基础： AI模型训练分两步，一步是学习---就是阅读海量资料、并构造一个巨大的神经网络函数，第二部是学会表达，遇到问题给出解答，但这种表达是不假思索的。一般第二步是用 SFT-- 监督下的微调，就是拿一些预设的问题和答案进行训练。而 DeepSeek -R1 让大语言模型更进了一步，学会了思考。 DeepSeek -R1 的基本训练模式是，在基础模型先用少量思维过程数据进行微调，然后进行所谓强化训练（Reinforcement Learning)，强化训练就是自己左右互搏训练，不再需要人工提供数据，AI在自我训练中突然顿悟。2. 实测结果：我用可滑动斜面上方块滑下的加速度多少的问题测试，之前只有 OpenAI-o1 能够解决，DeepSeek-V3 还不能。现在用 DeepSeek-R1, 它经过 84 秒钟的思考，给出了正确答案，而且整个思考过程非常有趣。它首先将 x-轴设为沿着斜面，但立刻发现因为斜面本身在动，问题变得很复杂，随后它又经过多轮思考不同的途径，最后给出了完全正确的答案（附图1-4）。这已经足够出色了，因为这个中学物理问题估计大部分学生都不能正确解决。 DeepSeek 还放了一个大招，那就是将现有的小模型进行一番思维训练，这些几十亿参数的小模型也可以进行思考。我用 Ollama 在笔记本上本地运行经过 R1 化的70亿参数 Qwen 模型，同样给这个滑动斜面上方块滑下的问题，它进行了非常冗长的不断思考，其中多次已经接近正解，虽然最终未能给出正确结果，但从其思路过程看，绝对掌握了相关的物理原理，它能够对自己的思路进行反思，发现有不对的地方，再去寻求其他途径（图5-8）。也许这才是最令人兴奋的。那些动辄数千亿参数的模型目前远远超出了个人拥有的计算资源，现在小模型也能思考了。DeepSeek-R1 无异于AI界的一声春雷。

从 DeepSeek-R1 水平以及其创新度看，OpenAI 领先度可能已经只有几个月。且 DeepSeek 的算法具有低成本、高效能优势，加速度强劲。至于扎卡伯格以及马斯克，虽有数十万张显卡，已经被远远抛在后面。估计他们的研究人员得开始认真学习DeepSeek 相关论文。

人工智能