#模型时代# Hugging Face发布了一...

高飞
2025-02-21 08:54:25

模型时代 Hugging Face发布了一本大模型电子书， “Ultra-Scale Playbook”，内容极其全面，含金量极高的样子。（跳转链接：网页链接）

联合创始人Thomas Wolf（发现去年我还发过他的一个讲座：网页链接）的介绍是：
这是一部免费、开源的著作，涵盖了有关 5D 并行、ZeRO、高速 CUDA kernel，如何以及为什么要重叠计算与通信等方方面面——我们以动机、原理、来自 4000+ 组扩展性实验的交互式可视化，以及 NotebookLM 提供的播客解读为基础，系统介绍了所有的扩展瓶颈与相关工具。

以下是书中会探讨的问题：
DeepSeek 是如何仅用 500 万美元就完成训练的？
Mistral 为什么使用了 MoE（专家混合）结构？
PyTorch 原生数据并行实现为何在底层如此复杂？
所有并行化技术都有哪些？为什么它们会被发明出来？
在扩展训练规模时，我该选择 ZeRO-3 还是管线并行？它们背后又有怎样的故事？
Meta 用于训练 Llama 3 的所谓 “Context Parallelism” 究竟是什么？它和 “Sequence Parallelism” 有何不同？
什么是 FP8？它与 BF16 相比有怎样的差异？

Thomas Wolf说，书籍的目标是把当前支持大模型扩展训练的一整套技术——从理论到实践、从动机到应用——汇集在一个易于阅读且深入详实的地方，为读者呈现连贯的整体脉络。

原本他们只是计划写一篇简单的博客，结果却一路延伸，把它做成了一个拥有 3 万多字、可交互阅读的作品。Hugging Face决定将其付诸印刷，制作成约 100 页的实体书——一部包含分布式与高速 AI 训练全部原理的实体版 Ultra-Scale Playbook。

Hugging Face说，要让 AI 真正走向大众，最核心的因素永远是让所有人都具备打造 AI 的能力，尤其是如何创建、训练并微调高性能模型。换句话说，让所有人都能掌握这些支撑最新大型语言模型以及高效训练的关键技术，才是推动 AI 民主化的首要环节。