DeepSeek发布了新一代大模型DeepSeek-V3...

爱可可-爱生活
2024-12-28 12:47:22

DeepSeek发布了新一代大模型DeepSeek-V3，一些令人印象深刻的突破：

模型规模达到惊人的671B参数，但实际计算时只激活37B参数。这个设计很巧妙——用更大的参数池提升模型能力，同时通过MoE架构控制计算成本。

训练效率也很惊人——仅用2.788M小时的H800就完成了14.8T token的训练。这得益于他们在框架层面的创新，包括首次在超大模型上验证了FP8训练的可行性。

评测结果表明DeepSeek-V3超越了其他开源模型，甚至在部分任务上追平了闭源模型。特别是在数学和编程领域表现优异，MATH和CRUXEval等基准测试中都拿到了最佳成绩。

最让开发者期待的是，DeepSeek-V3已经开源，并且支持多种部署方式——无论你用NVIDIA还是AMD的GPU，或者是华为的NPU，都能通过SGLang、vLLM等工具运行这个模型。开发者甚至可以选择FP8或BF16精度来平衡性能和效果。

GitHub：github.com/deepseek-ai/DeepSeek-V3

人工智能 AI创造营