#提示工程师# Honeycomb成为新的编码Agent...
- 高飞
- 2024-09-08 14:23:05
提示工程师 Honeycomb成为新的编码Agent SOTA机型。
SWE-bench 是一个综合评估框架,旨在测试语言模型解决真实世界软件工程问题的能力。该基准包括 2294 个工程问题。问题来自 GitHub 问题和多个开源 Python 软件库中的拉取请求。
一个创业团队Honeycomb上周发布了技术报告(链接:
网页链接),说已经在完整数据集上实现了 22.06% 的修复率,在验证数据集上实现了 40.38%的修复率,超过了AMAZON Q、Claude RAG等众多大公司方案。
YC合伙人Jared Friedman对技术报告做了一个解读:
1) LLMs 对缩进很挑剔,这在 Python 中是个大问题,因为缩进会影响意义。因此,他们有一个代理,只负责审查缩进。
2) LLMs需要很长时间才能解决这些问题。他们通常会在一小时后将其切断,如果不这样做,它就会像人一样继续尝试。
3) 每个补丁的token使用量中位数为 260 万个tokens!简直太多了,说明AI编码和人类的逻辑完全不同。
SWE-bench 是一个综合评估框架,旨在测试语言模型解决真实世界软件工程问题的能力。该基准包括 2294 个工程问题。问题来自 GitHub 问题和多个开源 Python 软件库中的拉取请求。
一个创业团队Honeycomb上周发布了技术报告(链接:

YC合伙人Jared Friedman对技术报告做了一个解读:
1) LLMs 对缩进很挑剔,这在 Python 中是个大问题,因为缩进会影响意义。因此,他们有一个代理,只负责审查缩进。
2) LLMs需要很长时间才能解决这些问题。他们通常会在一小时后将其切断,如果不这样做,它就会像人一样继续尝试。
3) 每个补丁的token使用量中位数为 260 万个tokens!简直太多了,说明AI编码和人类的逻辑完全不同。