#提示工程师# Honeycomb成为新的编码Agent...

高飞
2024-09-08 14:23:05

提示工程师 Honeycomb成为新的编码Agent SOTA机型。
SWE-bench 是一个综合评估框架，旨在测试语言模型解决真实世界软件工程问题的能力。该基准包括 2294 个工程问题。问题来自 GitHub 问题和多个开源 Python 软件库中的拉取请求。
一个创业团队Honeycomb上周发布了技术报告（链接：网页链接），说已经在完整数据集上实现了 22.06% 的修复率，在验证数据集上实现了 40.38%的修复率，超过了AMAZON Q、Claude RAG等众多大公司方案。

YC合伙人Jared Friedman对技术报告做了一个解读：
1) LLMs 对缩进很挑剔，这在 Python 中是个大问题，因为缩进会影响意义。因此，他们有一个代理，只负责审查缩进。
2) LLMs需要很长时间才能解决这些问题。他们通常会在一小时后将其切断，如果不这样做，它就会像人一样继续尝试。
3) 每个补丁的token使用量中位数为 260 万个tokens！简直太多了，说明AI编码和人类的逻辑完全不同。