OpenAI最新开源Agent基准测试
- 量子位
- 2024-10-15 00:02:01
OpenAI最新开源Agent基准测试
OpenAI开源了一个新的基准测试工具MLE-bench,主要用于衡量AI Agent在机器学习工程任务上的表现。(图1)
这项基准测试包含75个Kaggle竞赛的数据集,涵盖了自然语言处理、计算机视觉等多个常见领域。
每个竞赛都有相关说明、数据集和评分代码。竞赛中,模型提交的数据会在本地进行评分,并通过比赛的排行榜与真实世界中的人类结果进行比较。(图2)
举例来说,图3中显示的是gpt-4o分别和3个不同的Agent框架(MLAB、OpenHands、AIDE)组合进行竞赛的过程,与现实中的人类行为一样,解决问题时Agent会反复试验不同的场景。
在OpenAI进行的实验中,表现最好的组合是OpenAI的o1-preview模型与AIDE Scaffolding,它们在16.9%的比赛中达到了Kaggle铜牌以上的水平。(图4)
有网友评论道,这个基准对于开发计算科学相关的Agent来说非常有用。使用这个开源的测试工具,现在你也可以快速测试Agent的性能了!
官方介绍:
网页链接
MLE-bench地址:
网页链接
OpenAI开源了一个新的基准测试工具MLE-bench,主要用于衡量AI Agent在机器学习工程任务上的表现。(图1)
这项基准测试包含75个Kaggle竞赛的数据集,涵盖了自然语言处理、计算机视觉等多个常见领域。
每个竞赛都有相关说明、数据集和评分代码。竞赛中,模型提交的数据会在本地进行评分,并通过比赛的排行榜与真实世界中的人类结果进行比较。(图2)
举例来说,图3中显示的是gpt-4o分别和3个不同的Agent框架(MLAB、OpenHands、AIDE)组合进行竞赛的过程,与现实中的人类行为一样,解决问题时Agent会反复试验不同的场景。
在OpenAI进行的实验中,表现最好的组合是OpenAI的o1-preview模型与AIDE Scaffolding,它们在16.9%的比赛中达到了Kaggle铜牌以上的水平。(图4)
有网友评论道,这个基准对于开发计算科学相关的Agent来说非常有用。使用这个开源的测试工具,现在你也可以快速测试Agent的性能了!
官方介绍:

MLE-bench地址:
