DeepSeek-V3这个点很厉害...

黄建同学
2024-12-28 04:34:41

DeepSeek-V3这个点很厉害：其训练预算非常低，只用了2048 个 GPU，2 个月，600 万美元。

按照Andrej Karpathy，这种级别的能力应该需要接近 16K GPU 的集群，而今天推出的集群大约有 100K GPU。例如，Llama 3 405B 使用了 30.8M GPU 小时，而 DeepSeek-V3 看起来是一个更强大的模型，仅使用了 2.8M GPU 小时（计算量减少了约 11 倍）。ai创造营 ai ChatGPT