#模型时代# AI也会开小差儿...
- 高飞
- 2024-10-24 13:37:25
模型时代 AI也会开小差儿,以及简要概括一下Anthropic昨晚的更新。
大概可以分为这三个:第一是前沿机型,优化编码,第二个是次优的模型,优化速度(成本),最后是放出了“模型到行动”,即使用电脑。最后这个有点意外。
1、编码
Anthropic的Claude3.5在OpenAI的GPT-o1出现之前,一直是最强的编码模型,但是有了o1,就有点不好说了。显然Anthropic无论如何,不会放弃这个赛道,而是作为最强的一点打造。所以这波更新中,我认为最重要的是,新的 Claude 3.5 Sonnet 在编码方面也有显著提高,并强调在这一领域它已经处于领先地位。大家可以看图2,Sonnet 在 SWE-bench 验证中的得分高于所有可用模型,包括推理模型(如 OpenAI o1-preview 和专门的Agent)。
2、速度
前沿模型虽然强,但是有两个问题,一个是慢,一个是贵,所以作为API调用来说,可能开发者不一定喜欢。所以几乎模型公司都是两头兼顾,谷歌有flash版,OpenAI有mini版本,Claude 3.5有Haiku。这是他们下一代最快的机型。而且也强调了Haiku 在编码任务上的表现优于许多最先进的模型,包括最初的 Claude 3.5 Sonnet 和 GPT-4,而且成本与以前相同。注意,超过了最初的Claude 3.5!(图三)
3、模型到行动-电脑使用
上边两个更新都是日常操作,但是用模型使用电脑还是有点想法的。(虽然在手机领域,这就不是啥了不起的了)。在接下来的版本中,开发人员可以Claude像人一样使用计算机,如看屏幕、移动光标、点击和输入文本。而到了这一步,就让AI从聊天窗口里跳出来了,进入了现实世界。
不过,我最感兴趣的不是成功的演示,而是Anthropic放出来的一个不成功的演示。在视频一中,大家可以看到,模型本来在搞编码,但是突然打开Google,开始搜索黄石公园。我是觉得这一刻和人太像了,可能一不小心就去“刷抖音”了。
大概可以分为这三个:第一是前沿机型,优化编码,第二个是次优的模型,优化速度(成本),最后是放出了“模型到行动”,即使用电脑。最后这个有点意外。
1、编码
Anthropic的Claude3.5在OpenAI的GPT-o1出现之前,一直是最强的编码模型,但是有了o1,就有点不好说了。显然Anthropic无论如何,不会放弃这个赛道,而是作为最强的一点打造。所以这波更新中,我认为最重要的是,新的 Claude 3.5 Sonnet 在编码方面也有显著提高,并强调在这一领域它已经处于领先地位。大家可以看图2,Sonnet 在 SWE-bench 验证中的得分高于所有可用模型,包括推理模型(如 OpenAI o1-preview 和专门的Agent)。
2、速度
前沿模型虽然强,但是有两个问题,一个是慢,一个是贵,所以作为API调用来说,可能开发者不一定喜欢。所以几乎模型公司都是两头兼顾,谷歌有flash版,OpenAI有mini版本,Claude 3.5有Haiku。这是他们下一代最快的机型。而且也强调了Haiku 在编码任务上的表现优于许多最先进的模型,包括最初的 Claude 3.5 Sonnet 和 GPT-4,而且成本与以前相同。注意,超过了最初的Claude 3.5!(图三)
3、模型到行动-电脑使用
上边两个更新都是日常操作,但是用模型使用电脑还是有点想法的。(虽然在手机领域,这就不是啥了不起的了)。在接下来的版本中,开发人员可以Claude像人一样使用计算机,如看屏幕、移动光标、点击和输入文本。而到了这一步,就让AI从聊天窗口里跳出来了,进入了现实世界。
不过,我最感兴趣的不是成功的演示,而是Anthropic放出来的一个不成功的演示。在视频一中,大家可以看到,模型本来在搞编码,但是突然打开Google,开始搜索黄石公园。我是觉得这一刻和人太像了,可能一不小心就去“刷抖音”了。