OpenAI最新开源Agent基准测试

量子位
2024-10-15 00:02:01

OpenAI最新开源Agent基准测试

OpenAI开源了一个新的基准测试工具MLE-bench，主要用于衡量AI Agent在机器学习工程任务上的表现。（图1）

这项基准测试包含75个Kaggle竞赛的数据集，涵盖了自然语言处理、计算机视觉等多个常见领域。

每个竞赛都有相关说明、数据集和评分代码。竞赛中，模型提交的数据会在本地进行评分，并通过比赛的排行榜与真实世界中的人类结果进行比较。（图2）

举例来说，图3中显示的是gpt-4o分别和3个不同的Agent框架（MLAB、OpenHands、AIDE）组合进行竞赛的过程，与现实中的人类行为一样，解决问题时Agent会反复试验不同的场景。

在OpenAI进行的实验中，表现最好的组合是OpenAI的o1-preview模型与AIDE Scaffolding，它们在16.9%的比赛中达到了Kaggle铜牌以上的水平。（图4）

有网友评论道，这个基准对于开发计算科学相关的Agent来说非常有用。使用这个开源的测试工具，现在你也可以快速测试Agent的性能了！

官方介绍：网页链接
MLE-bench地址：网页链接