多模态版ImageNet来了

量子位
2024-11-13 19:43:51

多模态版ImageNet来了

空间智能版ImageNet来了，来自斯坦福李飞飞吴佳俊团队！

HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。

通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。

2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，它的出现极大推动计算机视觉算法的发展——懂CV的都是知道这里面的门道有多深。

现在，随着多模态迅猛发展，团队认为“现有的视频基准测试，大多集中在特定领域或短视频上”，并且“这些数据集的平均视频长度较短，限制了对长视频理解能力的全面评估”。

于是，空间智能版ImageNet应运而生。

HourVideo包含500个来自Ego4D数据集的第一人称视角视频，时长在20到120分钟之间，涉及77种日常活动。

评测结果表示，人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5（85.0%对37.3%）。

在多模态能力上，大模型们还任重而道远。

空间智能版ImageNet来了！李飞飞吴佳俊团队出品