#模型时代# 辛顿教授领衔的这篇论文...
- 高飞
- 2025-01-16 13:45:25
模型时代 辛顿教授领衔的这篇论文,领先了时代10年。
刚看到人形机器人公司1X的联合创始人Eric Jang发了一个推文,说10年前(2015年),当时来自Google的Geoffrey Hinton、Oriol Vinyals和Jeff Dean的一篇开创性论文:《Distilling the Knowledge in a Neural Network》(传送门:arxiv.org/abs/1503.02531),远远走在了时代前边(如图)。
虽然大模型很强大,但是我们需要在手机等设备上运行AI模型。而但那些性能最好的模型往往体积庞大,计算开销巨大。就像一位博学的教授,虽然知识渊博,但不可能随时随地为每个学生答疑解惑。所以,我们需要找到一种方法,让"小模型"也能获得"大模型"的智慧。
这篇论文提出了在当时具有开创性的想法:通过"蒸馏"技术,将复杂模型中的知识转移到更小的模型中。事实证明,现在确实大家把蒸馏作为一种用大模型训练小模型的方式。甚至Deepseek-v3有这么好的表现,分析背后也有数据蒸馏的成果。
这个团队当时通过MNIST手写数字识别任务发现,当使用知识蒸馏技术时,一个小型网络可以达到接近大模型集成的性能。具体来说,原始的大型模型在测试集上有67个错误,而经过蒸馏后的小模型仅有74个错误,相比直接训练同样规模的小模型(146个错误)提升显著。
更令人惊讶的是,在语音识别领域的实验中,研究团队发现蒸馏后的单个模型几乎可以完全保持模型集成的优势。在帧准确率方面,原始基准模型为58.9%,模型集成可以达到61.1%,而经过蒸馏的单个模型也能达到60.8%,这种性能的保持令人印象深刻。
那么,这种"知识蒸馏"是如何实现的呢?其核心在于使用"软标签"。传统的深度学习使用严格的0-1标签进行训练,就像只告诉学生答案对错。而知识蒸馏则采用大模型输出的概率分布作为软标签,这就像告诉学生"这个答案有多大把握是对的"。通过调整温度参数,可以让这种知识传递更加高效。
这项研究不仅提供了一个实用的模型压缩方案,更重要的是开启了一个新的研究方向:如何更好地理解和传递神经网络中的知识。正如作者所说,我们不应该将模型的知识简单地等同于其参数,而应该从更抽象的角度去理解和利用这些知识。
十年前的研究,现在开花结果。我们从不缺乏跟风口的人,但是始终缺乏创造风口的人。
刚看到人形机器人公司1X的联合创始人Eric Jang发了一个推文,说10年前(2015年),当时来自Google的Geoffrey Hinton、Oriol Vinyals和Jeff Dean的一篇开创性论文:《Distilling the Knowledge in a Neural Network》(传送门:arxiv.org/abs/1503.02531),远远走在了时代前边(如图)。
虽然大模型很强大,但是我们需要在手机等设备上运行AI模型。而但那些性能最好的模型往往体积庞大,计算开销巨大。就像一位博学的教授,虽然知识渊博,但不可能随时随地为每个学生答疑解惑。所以,我们需要找到一种方法,让"小模型"也能获得"大模型"的智慧。
这篇论文提出了在当时具有开创性的想法:通过"蒸馏"技术,将复杂模型中的知识转移到更小的模型中。事实证明,现在确实大家把蒸馏作为一种用大模型训练小模型的方式。甚至Deepseek-v3有这么好的表现,分析背后也有数据蒸馏的成果。
这个团队当时通过MNIST手写数字识别任务发现,当使用知识蒸馏技术时,一个小型网络可以达到接近大模型集成的性能。具体来说,原始的大型模型在测试集上有67个错误,而经过蒸馏后的小模型仅有74个错误,相比直接训练同样规模的小模型(146个错误)提升显著。
更令人惊讶的是,在语音识别领域的实验中,研究团队发现蒸馏后的单个模型几乎可以完全保持模型集成的优势。在帧准确率方面,原始基准模型为58.9%,模型集成可以达到61.1%,而经过蒸馏的单个模型也能达到60.8%,这种性能的保持令人印象深刻。
那么,这种"知识蒸馏"是如何实现的呢?其核心在于使用"软标签"。传统的深度学习使用严格的0-1标签进行训练,就像只告诉学生答案对错。而知识蒸馏则采用大模型输出的概率分布作为软标签,这就像告诉学生"这个答案有多大把握是对的"。通过调整温度参数,可以让这种知识传递更加高效。
这项研究不仅提供了一个实用的模型压缩方案,更重要的是开启了一个新的研究方向:如何更好地理解和传递神经网络中的知识。正如作者所说,我们不应该将模型的知识简单地等同于其参数,而应该从更抽象的角度去理解和利用这些知识。
十年前的研究,现在开花结果。我们从不缺乏跟风口的人,但是始终缺乏创造风口的人。