#模型时代# AI也会开小差儿...

高飞
2024-10-24 13:37:25

模型时代 AI也会开小差儿，以及简要概括一下Anthropic昨晚的更新。
大概可以分为这三个：第一是前沿机型，优化编码，第二个是次优的模型，优化速度（成本），最后是放出了“模型到行动”，即使用电脑。最后这个有点意外。

1、编码
Anthropic的Claude3.5在OpenAI的GPT-o1出现之前，一直是最强的编码模型，但是有了o1，就有点不好说了。显然Anthropic无论如何，不会放弃这个赛道，而是作为最强的一点打造。所以这波更新中，我认为最重要的是，新的 Claude 3.5 Sonnet 在编码方面也有显著提高，并强调在这一领域它已经处于领先地位。大家可以看图2，Sonnet 在 SWE-bench 验证中的得分高于所有可用模型，包括推理模型（如 OpenAI o1-preview 和专门的Agent）。

2、速度
前沿模型虽然强，但是有两个问题，一个是慢，一个是贵，所以作为API调用来说，可能开发者不一定喜欢。所以几乎模型公司都是两头兼顾，谷歌有flash版，OpenAI有mini版本，Claude 3.5有Haiku。这是他们下一代最快的机型。而且也强调了Haiku 在编码任务上的表现优于许多最先进的模型，包括最初的 Claude 3.5 Sonnet 和 GPT-4，而且成本与以前相同。注意，超过了最初的Claude 3.5！（图三）

3、模型到行动-电脑使用
上边两个更新都是日常操作，但是用模型使用电脑还是有点想法的。（虽然在手机领域，这就不是啥了不起的了）。在接下来的版本中，开发人员可以Claude像人一样使用计算机，如看屏幕、移动光标、点击和输入文本。而到了这一步，就让AI从聊天窗口里跳出来了，进入了现实世界。
不过，我最感兴趣的不是成功的演示，而是Anthropic放出来的一个不成功的演示。在视频一中，大家可以看到，模型本来在搞编码，但是突然打开Google，开始搜索黄石公园。我是觉得这一刻和人太像了，可能一不小心就去“刷抖音”了。