DeepSeek发布了新一代大模型DeepSeek-V3...

  • 爱可可-爱生活
  • 2024-12-28 12:47:22
DeepSeek发布了新一代大模型DeepSeek-V3,一些令人印象深刻的突破:

模型规模达到惊人的671B参数,但实际计算时只激活37B参数。这个设计很巧妙——用更大的参数池提升模型能力,同时通过MoE架构控制计算成本。

训练效率也很惊人——仅用2.788M小时的H800就完成了14.8T token的训练。这得益于他们在框架层面的创新,包括首次在超大模型上验证了FP8训练的可行性。

评测结果表明DeepSeek-V3超越了其他开源模型,甚至在部分任务上追平了闭源模型。特别是在数学和编程领域表现优异,MATH和CRUXEval等基准测试中都拿到了最佳成绩。

最让开发者期待的是,DeepSeek-V3已经开源,并且支持多种部署方式——无论你用NVIDIA还是AMD的GPU,或者是华为的NPU,都能通过SGLang、vLLM等工具运行这个模型。开发者甚至可以选择FP8或BF16精度来平衡性能和效果。

GitHub:github.com/deepseek-ai/DeepSeek-V3

人工智能AI创造营
DeepSeek发布了新一代大模型DeepSeek-V3...