Meta开源Llama 4，测试成绩亮眼但被指“针对性优化”

知未科技
2025-04-09 06:30:58

【Meta开源Llama 4，测试成绩亮眼但被指“针对性优化”】
日前，Meta官宣开源首个原生多模态Llama 4，首次采用MoE架构，支持12种语言，首批发布一共两款：
①Llama 4 Scout：共有1090亿参数，17B活跃参数，16个专家，1000万上下文
②Llama 4 Maverick：共有4000亿参数，17B活跃参数，128个专家，100万上下文
另外，2万亿参数Llama 4 Behemoth将在未来几个月面世，288B活跃参数，16个专家。
在大模型LMSYS排行榜上，Llama 4 Maverick冲上第二（ELO得分1417），仅次于闭源Gemini 2.5 Pro。在基准测试中，性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。目前在STEM基准测试中，超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。
然而，这一成绩的含金量却引发了诸多质疑。多位AI研究人员在社交平台X上指出，Meta 在LM Arena上部署的Maverick版本与广泛提供给开发者的版本并不一致。
根据Llama官网上公布的信息，Meta在LM Arena的测试中所使用的实际上是“针对对话性优化的Llama 4 Maverick”。这表明，该版本经过了专门的优化调整，以适应LM Arena的测试环境和评分标准。
以往，AI公司通常不会对模型进行专门的定制或微调，以在LM Arena上获得更高的分数，至少没有公开承认过这种做法。这种对模型进行针对性优化，然后只发布一个“普通版”的行为，给开发者带来了诸多困扰，同时也具有一定的误导性。AI创造营（综合新智元、IT之家）