#模型时代# 辛顿教授领衔的这篇论文...

高飞
2025-01-16 13:45:25

模型时代辛顿教授领衔的这篇论文，领先了时代10年。

刚看到人形机器人公司1X的联合创始人Eric Jang发了一个推文，说10年前（2015年），当时来自Google的Geoffrey Hinton、Oriol Vinyals和Jeff Dean的一篇开创性论文：《Distilling the Knowledge in a Neural Network》（传送门：arxiv.org/abs/1503.02531），远远走在了时代前边（如图）。

虽然大模型很强大，但是我们需要在手机等设备上运行AI模型。而但那些性能最好的模型往往体积庞大，计算开销巨大。就像一位博学的教授，虽然知识渊博，但不可能随时随地为每个学生答疑解惑。所以，我们需要找到一种方法，让"小模型"也能获得"大模型"的智慧。

这篇论文提出了在当时具有开创性的想法：通过"蒸馏"技术，将复杂模型中的知识转移到更小的模型中。事实证明，现在确实大家把蒸馏作为一种用大模型训练小模型的方式。甚至Deepseek-v3有这么好的表现，分析背后也有数据蒸馏的成果。

这个团队当时通过MNIST手写数字识别任务发现，当使用知识蒸馏技术时，一个小型网络可以达到接近大模型集成的性能。具体来说，原始的大型模型在测试集上有67个错误，而经过蒸馏后的小模型仅有74个错误，相比直接训练同样规模的小模型（146个错误）提升显著。

更令人惊讶的是，在语音识别领域的实验中，研究团队发现蒸馏后的单个模型几乎可以完全保持模型集成的优势。在帧准确率方面，原始基准模型为58.9%，模型集成可以达到61.1%，而经过蒸馏的单个模型也能达到60.8%，这种性能的保持令人印象深刻。

那么，这种"知识蒸馏"是如何实现的呢？其核心在于使用"软标签"。传统的深度学习使用严格的0-1标签进行训练，就像只告诉学生答案对错。而知识蒸馏则采用大模型输出的概率分布作为软标签，这就像告诉学生"这个答案有多大把握是对的"。通过调整温度参数，可以让这种知识传递更加高效。

这项研究不仅提供了一个实用的模型压缩方案，更重要的是开启了一个新的研究方向：如何更好地理解和传递神经网络中的知识。正如作者所说，我们不应该将模型的知识简单地等同于其参数，而应该从更抽象的角度去理解和利用这些知识。

十年前的研究，现在开花结果。我们从不缺乏跟风口的人，但是始终缺乏创造风口的人。