Grok3刚出就翻车,栽在9.11和9.9比大小的必答题上
- 知未科技
- 2025-02-20 03:03:09
【Grok3刚出就翻车,栽在9.11和9.9比大小的必答题上】
昨天马斯克及其xAI团队在直播中正式发布了Grok 3,此前马斯克称Grok 3为“地球上最聪明的人工智能”,然而其实际表现似乎对不起这个名号。
发布会上,马斯克宣称Grok 3在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于SpaceX的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。但Grok 3的实际测试表现却让人大跌眼镜。发布后,一些媒体测试了最新的Beta版Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9 哪个大?”遗憾的是,号称目前最聪明的Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。
此外,xAI发布会直播在分析游戏《流放之路 2》的职业与升华效果时,Grok 3也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。
尽管在官方PPT中,Grok3在大模型竞技场Chatbot Arena中看似“遥遥领先”,但实际上其与DeepSeek R1和GPT4.0的差距仅为1%到2%。
值得一提的是,发布会后,马斯克在社交媒体上表示,当前的Grok 3仅是测试版,完整版将在未来几个月推出,并邀请用户反馈使用问题。(IT之家)
昨天马斯克及其xAI团队在直播中正式发布了Grok 3,此前马斯克称Grok 3为“地球上最聪明的人工智能”,然而其实际表现似乎对不起这个名号。
发布会上,马斯克宣称Grok 3在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于SpaceX的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。但Grok 3的实际测试表现却让人大跌眼镜。发布后,一些媒体测试了最新的Beta版Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9 哪个大?”遗憾的是,号称目前最聪明的Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。
此外,xAI发布会直播在分析游戏《流放之路 2》的职业与升华效果时,Grok 3也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。
尽管在官方PPT中,Grok3在大模型竞技场Chatbot Arena中看似“遥遥领先”,但实际上其与DeepSeek R1和GPT4.0的差距仅为1%到2%。
值得一提的是,发布会后,马斯克在社交媒体上表示,当前的Grok 3仅是测试版,完整版将在未来几个月推出,并邀请用户反馈使用问题。(IT之家)