多模态LLM AIGCLINK 2024-09-29 13:16:28 智源研究院的一个新型多模态大模型:Emu3,通过预测下一个词或token的方式来理解和生成文本、图像和视频从效果看,尤其视觉语言理解上,下一个token预测在构建通用多模态智能方面或是一条明朗的方向其在生成和理解任务方面表现优秀,超越了SDXL、LLaVA-1.6 和 OpenSora-1.2,同时不需要使用扩散模型或组合结构模型从325M到100B参数不等github:LLMEmu3多模态LLM