JPEG-LM: LLMs as Image...

AMiner学术头条
2024-08-27 18:41:57

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations网页链接
本文提出了一种新的图像生成方法JPEG-LM，该方法利用了自回归语言模型（LLM）的架构，通过将图像和视频表示为计算机上存储的压缩文件，从而将语言生成和视觉生成相结合。与直接对图像的像素值进行建模的方法不同，JPEG-LM通过直接输出JPEG和AVC格式压缩文件的字节来预训练生成图像（以及通过AVC-LM生成视频作为概念验证），采用了默认的Llama架构而无需进行任何针对视觉的修改。评估结果显示，这种简单直接的方法比基于像素的建模和复杂的向量量化基线更有效，JPEG-LM在生成长尾视觉元素方面特别优于向量量化模型。总体而言，本文表明使用标准编解码器表示可以帮助降低语言生成和视觉生成之间的障碍，为未来多模态语言/图像/视频LLM的研究铺平道路。
硕士论文人工智能博士大模型