Meta开源Llama 4,测试成绩亮眼但被指“针对性优化”
- 知未科技
- 2025-04-09 06:30:58
【Meta开源Llama 4,测试成绩亮眼但被指“针对性优化”】
日前,Meta官宣开源首个原生多模态Llama 4,首次采用MoE架构,支持12种语言,首批发布一共两款:
①Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下文
②Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文
另外,2万亿参数Llama 4 Behemoth将在未来几个月面世,288B活跃参数,16个专家。
在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二(ELO得分1417),仅次于闭源Gemini 2.5 Pro。在基准测试中,性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。目前在STEM基准测试中,超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。
然而,这一成绩的含金量却引发了诸多质疑。多位AI研究人员在社交平台X上指出,Meta 在LM Arena上部署的Maverick版本与广泛提供给开发者的版本并不一致。
根据Llama官网上公布的信息,Meta在LM Arena的测试中所使用的实际上是“针对对话性优化的Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应LM Arena的测试环境和评分标准。
以往,AI公司通常不会对模型进行专门的定制或微调,以在LM Arena上获得更高的分数,至少没有公开承认过这种做法。这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰,同时也具有一定的误导性。AI创造营 (综合新智元、IT之家)
日前,Meta官宣开源首个原生多模态Llama 4,首次采用MoE架构,支持12种语言,首批发布一共两款:
①Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下文
②Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文
另外,2万亿参数Llama 4 Behemoth将在未来几个月面世,288B活跃参数,16个专家。
在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二(ELO得分1417),仅次于闭源Gemini 2.5 Pro。在基准测试中,性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。目前在STEM基准测试中,超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。
然而,这一成绩的含金量却引发了诸多质疑。多位AI研究人员在社交平台X上指出,Meta 在LM Arena上部署的Maverick版本与广泛提供给开发者的版本并不一致。
根据Llama官网上公布的信息,Meta在LM Arena的测试中所使用的实际上是“针对对话性优化的Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应LM Arena的测试环境和评分标准。
以往,AI公司通常不会对模型进行专门的定制或微调,以在LM Arena上获得更高的分数,至少没有公开承认过这种做法。这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰,同时也具有一定的误导性。AI创造营 (综合新智元、IT之家)