多模态LLM

AIGCLINK
2024-09-29 13:16:28

智源研究院的一个新型多模态大模型：Emu3，通过预测下一个词或token的方式来理解和生成文本、图像和视频

从效果看，尤其视觉语言理解上，下一个token预测在构建通用多模态智能方面或是一条明朗的方向

其在生成和理解任务方面表现优秀，超越了SDXL、LLaVA-1.6 和 OpenSora-1.2，同时不需要使用扩散模型或组合结构

模型从325M到100B参数不等

github：LLM Emu3 多模态LLM