Grok3刚出就翻车，栽在9.11和9.9比大小的必答题上

知未科技
2025-02-20 03:03:09

【Grok3刚出就翻车，栽在9.11和9.9比大小的必答题上】
昨天马斯克及其xAI团队在直播中正式发布了Grok 3，此前马斯克称Grok 3为“地球上最聪明的人工智能”，然而其实际表现似乎对不起这个名号。
发布会上，马斯克宣称Grok 3在数学、科学与编程的基准测试中超越了所有主流模型，并计划将其应用于SpaceX的火星任务计算，甚至预测未来三年内将实现诺贝尔奖级别的突破。但Grok 3的实际测试表现却让人大跌眼镜。发布后，一些媒体测试了最新的Beta版Grok 3，并提出了那个经典的用来刁难大模型的问题：“9.11与9.9 哪个大？”遗憾的是，号称目前最聪明的Grok 3，仍然无法正确回答这个问题，被网友戏称为“天才不愿意回答简单问题”。
此外，xAI发布会直播在分析游戏《流放之路 2》的职业与升华效果时，Grok 3也给出了大量错误答案，并且马斯克也没有看出这些明显的错误。
尽管在官方PPT中，Grok3在大模型竞技场Chatbot Arena中看似“遥遥领先”，但实际上其与DeepSeek R1和GPT4.0的差距仅为1%到2%。
值得一提的是，发布会后，马斯克在社交媒体上表示，当前的Grok 3仅是测试版，完整版将在未来几个月推出，并邀请用户反馈使用问题。（IT之家）