端侧多模态模型

量子位
2025-01-19 11:51:25

端侧多模态模型

刚刚，面壁智能发布了平板可用的端侧模型——MiniCPM-o 2.6，它把看、听、说全部结合在一起，展现了强大的多模态处理能力。

先来看一波效果，在【视频1】中，用户拿着搭载 MiniCPM-o 2.6 的平板，一口气为我们展现了五大能力：

- 实时场景理解与追踪：通过摄像头，MiniCPM-o 2.6 能实时回答关于当前环境的问题，比如“现在发生了什么？”或“具体位置在哪？”等。

- 多语言与多口音对话：无论是中文、英文，还是特定口音的语言，MiniCPM-o 2.6 都能流畅进行对话，甚至支持角色扮演。

- 环境音识别与推理：能够识别周围环境的声音，并推理出事件。例如，它能听出敲门声、打喷嚏声、倒水声等，并进行智能推理。

- 文字、图像、音频整合：具备强大的多模态能力，能够“看”论文、理解其中的内容，并用自己的语言将论文内容讲解出来。

- 个性化内容推荐：根据用户的个性化需求，MiniCPM-o 2.6 可以推荐电影、音乐、书籍，甚至进行简单的闲聊，满足日常需求。

这么全能的小钢炮，其实只用到了 8B 参数，它的具体架构如【图2】，我们先来看图片左上角：

• Speech Embedding (Eₛ)：语音嵌入，表示将语音信号转换为可被模型处理的数值格式，以便进一步解析。

• OTDM（Omni-modality Time Division Multiplexer）：时间分割复用技术，用于分配时间，以便处理图像、音频等多个数据流。

• 视觉流（StreamV）：处理摄像头或视频的视觉数据。
• 音频流（StreamA）：处理背景音或语音数据。
• 用户查询音频（QueryA）：处理用户的问题或指令。
• Omitted Inputs (ϕ)：没有输入数据。

在核心架构部分，Omni-Modality Streaming Backbone（全模态流媒体主干）承担着重要任务，它连接和处理来自不同模态的数据流，是模型的核心。

右上角的“Streaming Speech Decoder”，是语音解码器，它能将语音输入转换为文本输出。

此外，架构中还有一个很有趣的部分——时间线（Time），从 t1 到 t13 对应着不同的时间点，每个时间点上，模型在处理不同的输入数据：

- 在 t4 时，模型接收到用户的音频查询：“什么刚跑过去？”
- 在 t12 时，用户请求模型：“快乐地读一首诗。”

实验结果方面如【图3】，可以看到，MiniCPM-o 2.6 在多个领域表现出色，尤其是在实时视频流处理、语音查询和光学字符识别等方面，展现了强大的处理能力。

感兴趣的小伙伴可以点击：网页链接