中国 AI 大爆炸:中国AI公司...

  • 岳东晓博士
  • 2025-01-22 08:10:13
中国 AI 大爆炸:中国AI公司 DeepSeek 开源了 其R1 思维模型以及相关理论与算法。DeepSeek-R1 已经与 OpenAI-o1 持平,而且开源。更令人振奋的是,DeepSeek 的 R1 思维训练模板可以用来蒸馏现有的小模型,使这些小模型也具备了思维能力。下面是我阅读其论文并测试的初步总结。1. 理论基础: AI模型训练分两步,一步是学习---就是阅读海量资料、并构造一个巨大的神经网络函数,第二部是学会表达,遇到问题给出解答,但这种表达是不假思索的。一般第二步是用 SFT-- 监督下的微调,就是拿一些预设的问题和答案进行训练。而 DeepSeek -R1 让大语言模型更进了一步,学会了思考。 DeepSeek -R1 的基本训练模式是,在基础模型先用少量思维过程数据进行微调,然后进行所谓强化训练(Reinforcement Learning),强化训练就是自己左右互搏训练,不再需要人工提供数据,AI在自我训练中突然顿悟。2. 实测结果:我用可滑动斜面上方块滑下的加速度多少的问题测试,之前只有 OpenAI-o1 能够解决,DeepSeek-V3 还不能。现在用 DeepSeek-R1, 它经过 84 秒钟的思考,给出了正确答案,而且整个思考过程非常有趣。它首先将 x-轴设为沿着斜面,但立刻发现因为斜面本身在动,问题变得很复杂,随后它又经过多轮思考不同的途径,最后给出了完全正确的答案(附图1-4)。这已经足够出色了,因为这个中学物理问题估计大部分学生都不能正确解决。 DeepSeek 还放了一个大招,那就是将现有的小模型进行一番思维训练,这些几十亿参数的小模型也可以进行思考。我用 Ollama 在笔记本上本地运行 经过 R1 化的70亿参数 Qwen 模型,同样给这个滑动斜面上方块滑下的问题,它进行了非常冗长的不断思考,其中多次已经接近正解,虽然最终未能给出正确结果,但从其思路过程看,绝对掌握了相关的物理原理,它能够对自己的思路进行反思,发现有不对的地方,再去寻求其他途径(图5-8)。也许这才是最令人兴奋的。那些动辄数千亿参数的模型目前远远超出了个人拥有的计算资源,现在小模型也能思考了。DeepSeek-R1 无异于AI界的一声春雷。

从 DeepSeek-R1 水平以及其创新度看,OpenAI 领先度可能已经只有几个月。且 DeepSeek 的算法具有低成本、高效能优势,加速度强劲。至于扎卡伯格以及马斯克,虽有数十万张显卡,已经被远远抛在后面。估计他们的研究人员得开始认真学习DeepSeek 相关论文。

人工智能
中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...中国 AI 大爆炸:中国AI公司...