今年我读了大量 VLM 论文这是自...

  • 斌叔OKmath
  • 2024-11-03 22:05:47
今年我读了大量 VLM 论文
这是自 Llava 1.0 发布以来对 VLM 趋势的简短调查

⏯️视频 LM 和交错文本与视频多图像:VLM 现在接受交错的文本-视频-图像,有些接受没有交错格式的视频。
交错模型示例:Idefics3、Llava-Next Interleave
视频模型示例:LongVU、Video-Llava

✨多视觉编码器:一些模型结合了多个视觉编码器输出并选择和融合一些表示。
例如:BRAVE、MiniGemini、DocOwl

用于检索的 VLM:我们可以将 VLM 与 LLM 配对(类似双编码器设置),投影输出并最大化它们之间的相似性。
例如:ColPali、ColQwen、DSE、MCDSE

零样本视觉任务:我们可以使用 VLM 进行开箱即用的零样本视觉任务。
示例:这一趋势始于 KOSMOS-2 能够进行物体检测,然后 PaliGemma 能够进行分割(使用一些标记来屏蔽映射器 VAE),而 Molmo 能够计数物体

❄️不同的训练前/后设置:通常我们只训练多模态投影仪,使其在视觉编码器和 LLM 之间对齐,然后通过解冻解码器进行下游微调。
今年已经推出了大量设置,但最有趣的是 GOT-OCR(见下文)。在我看来,这对于文档来说是有意义的,因为视觉编码器通常是通用的,而我们需要领域转换。

我明天将在麻省理工学院的演讲中更详细地讨论这些问题,如果您有兴趣了解更多,我们希望能够对其进行直播!
今年我读了大量 VLM 论文这是自...