DeepSeek-V3这个点很厉害...

  • 黄建同学
  • 2024-12-28 04:34:41
DeepSeek-V3这个点很厉害:其训练预算非常低,只用了2048 个 GPU,2 个月,600 万美元。

按照Andrej Karpathy,这种级别的能力应该需要接近 16K GPU 的集群,而今天推出的集群大约有 100K GPU。例如,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时(计算量减少了约 11 倍)。ai创造营aiChatGPT
DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...DeepSeek-V3这个点很厉害...