OpenAI最新开源Agent基准测试

  • 量子位
  • 2024-10-15 00:02:01
OpenAI最新开源Agent基准测试

OpenAI开源了一个新的基准测试工具MLE-bench,主要用于衡量AI Agent在机器学习工程任务上的表现。(图1)

这项基准测试包含75个Kaggle竞赛的数据集,涵盖了自然语言处理、计算机视觉等多个常见领域。

每个竞赛都有相关说明、数据集和评分代码。竞赛中,模型提交的数据会在本地进行评分,并通过比赛的排行榜与真实世界中的人类结果进行比较。(图2)

举例来说,图3中显示的是gpt-4o分别和3个不同的Agent框架(MLAB、OpenHands、AIDE)组合进行竞赛的过程,与现实中的人类行为一样,解决问题时Agent会反复试验不同的场景。

在OpenAI进行的实验中,表现最好的组合是OpenAI的o1-preview模型与AIDE Scaffolding,它们在16.9%的比赛中达到了Kaggle铜牌以上的水平。(图4)

有网友评论道,这个基准对于开发计算科学相关的Agent来说非常有用。使用这个开源的测试工具,现在你也可以快速测试Agent的性能了!

官方介绍:网页链接
MLE-bench地址:网页链接
OpenAI最新开源Agent基准测试OpenAI最新开源Agent基准测试OpenAI最新开源Agent基准测试OpenAI最新开源Agent基准测试OpenAI最新开源Agent基准测试