中国人工智能公司...
- 包容万物恒河水
- 2024-12-28 15:43:35
中国人工智能公司 DeepSeek 展示了一个前沿级别的 MoE LLM 模型 DeepSeek-V3,该模型在一个笑话般的预算下训练(整个训练仅花费了 557.6 万美元,或在 2048xH800 集群上运行约 55 天。与 Llama、GPT 或 Claude 的训练相比,这个成本微不足道)。
与 V2 相比,推理速度提高了 3 倍,达到每秒 60 个tokens,速度约为 GPT-4 的两倍。
DeepSeek V3 在关键基准测试中的表现令人印象深刻:
解决高级数学问题(MATH-500 得分 90.2%,而 Claude-3.5-Sonnet 为 78.3%,GPT-4o 为 74.6%)
编码能力出色(在 HumanEval 上得分 82.6%,而 Claude-3.5-Sonnet 为 81.7%,GPT-4o 为 80.5%)
可以一次处理大量文本(128K tokens,约相当于 100,000 个英语单词)
总成本 557.6 万美元明细:
Pre-training: $ 5.328M (2664K GPU hours)
Context extension: $ 0.238M (119K GPU hours)
Post-training: $ 0.01M (5K GPU hours)
成本效率源于三个关键技术进步:
架构优化:MoE 架构,总参数量为 671B;每个 token 仅激活 37B 参数。
训练优化:FP8 混合精度框架:在极大规模模型上首次验证 FP8 训练,提高效率;双管道算法用于计算-通信重叠;辅助无损负载均衡;高效训练14.8T token
资源利用:每万亿个 tokens 仅需 180K H800 GPU hours;预训练在不到两个月的时间内完成;实现比之前版本快 3 倍的推理速度。
这款拥有 671B 参数的模型不仅规模超越 Meta 的 Llama3.1(405B),在多项基准测试中的表现也优于包括 GPT-4 在内的主流封闭源模型。
作为参考,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时(计算量减少了约 11 倍),两年前这样的模型需要数千万或数亿美元的训练成本……就此而言,这是不可思议的进步。这代表了与其他主要模型相比,训练效率的重大变化,以传统训练成本的一小部分实现了可比的性能。
另外,DeepSeek V3 继续卷价格,直到 2 月 8 日(45 天内),每百万输入 tokens $ 0.27,输出 tokens $ 1.10
它是开源的,开源之光。
当然,散户们可能不会太开心,因为 DeepSeek 就是中国最大的量化基金之一幻方High-Flyer 的,该基金投资建设了拥有10,000个Nvidia A100GPU、价值约1.38亿美元的服务器集群。根据 DeepSeek V3 论文,包括创始人梁文峰在内的 139 名工程师和研究人员参与了该模型的构建,OpenAI 的研发团队约有 1200 人,Anthropic 的至少有 500,DeepSeek V3 是资源限制下研究和工程的一个非常令人印象深刻的展示。
对于欧美业界来说,这是来自架构和方法上的又一次斯普特尼克震撼,只是很多人感受不深。
ai创造营
与 V2 相比,推理速度提高了 3 倍,达到每秒 60 个tokens,速度约为 GPT-4 的两倍。
DeepSeek V3 在关键基准测试中的表现令人印象深刻:
解决高级数学问题(MATH-500 得分 90.2%,而 Claude-3.5-Sonnet 为 78.3%,GPT-4o 为 74.6%)
编码能力出色(在 HumanEval 上得分 82.6%,而 Claude-3.5-Sonnet 为 81.7%,GPT-4o 为 80.5%)
可以一次处理大量文本(128K tokens,约相当于 100,000 个英语单词)
总成本 557.6 万美元明细:
Pre-training: $ 5.328M (2664K GPU hours)
Context extension: $ 0.238M (119K GPU hours)
Post-training: $ 0.01M (5K GPU hours)
成本效率源于三个关键技术进步:
架构优化:MoE 架构,总参数量为 671B;每个 token 仅激活 37B 参数。
训练优化:FP8 混合精度框架:在极大规模模型上首次验证 FP8 训练,提高效率;双管道算法用于计算-通信重叠;辅助无损负载均衡;高效训练14.8T token
资源利用:每万亿个 tokens 仅需 180K H800 GPU hours;预训练在不到两个月的时间内完成;实现比之前版本快 3 倍的推理速度。
这款拥有 671B 参数的模型不仅规模超越 Meta 的 Llama3.1(405B),在多项基准测试中的表现也优于包括 GPT-4 在内的主流封闭源模型。
作为参考,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时(计算量减少了约 11 倍),两年前这样的模型需要数千万或数亿美元的训练成本……就此而言,这是不可思议的进步。这代表了与其他主要模型相比,训练效率的重大变化,以传统训练成本的一小部分实现了可比的性能。
另外,DeepSeek V3 继续卷价格,直到 2 月 8 日(45 天内),每百万输入 tokens $ 0.27,输出 tokens $ 1.10
它是开源的,开源之光。
当然,散户们可能不会太开心,因为 DeepSeek 就是中国最大的量化基金之一幻方High-Flyer 的,该基金投资建设了拥有10,000个Nvidia A100GPU、价值约1.38亿美元的服务器集群。根据 DeepSeek V3 论文,包括创始人梁文峰在内的 139 名工程师和研究人员参与了该模型的构建,OpenAI 的研发团队约有 1200 人,Anthropic 的至少有 500,DeepSeek V3 是资源限制下研究和工程的一个非常令人印象深刻的展示。
对于欧美业界来说,这是来自架构和方法上的又一次斯普特尼克震撼,只是很多人感受不深。
ai创造营