多模态版ImageNet来了

  • 量子位
  • 2024-11-13 19:43:51
多模态版ImageNet来了

空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队!

HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。

通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。

2009年,李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet,它的出现极大推动计算机视觉算法的发展——懂CV的都是知道这里面的门道有多深。

现在,随着多模态迅猛发展,团队认为“现有的视频基准测试,大多集中在特定领域或短视频上”,并且“这些数据集的平均视频长度较短,限制了对长视频理解能力的全面评估”。

于是,空间智能版ImageNet应运而生。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频,时长在20到120分钟之间,涉及77种日常活动。

评测结果表示,人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5(85.0%对37.3%)。

在多模态能力上,大模型们还任重而道远。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品
多模态版ImageNet来了多模态版ImageNet来了多模态版ImageNet来了多模态版ImageNet来了