端侧多模态模型
- 量子位
- 2025-01-19 11:51:25
端侧多模态模型
刚刚,面壁智能发布了平板可用的端侧模型——MiniCPM-o 2.6,它把看、听、说全部结合在一起,展现了强大的多模态处理能力。
先来看一波效果,在【视频1】中,用户拿着搭载 MiniCPM-o 2.6 的平板,一口气为我们展现了五大能力:
- 实时场景理解与追踪: 通过摄像头,MiniCPM-o 2.6 能实时回答关于当前环境的问题,比如“现在发生了什么?”或“具体位置在哪?”等。
- 多语言与多口音对话: 无论是中文、英文,还是特定口音的语言,MiniCPM-o 2.6 都能流畅进行对话,甚至支持角色扮演。
- 环境音识别与推理: 能够识别周围环境的声音,并推理出事件。例如,它能听出敲门声、打喷嚏声、倒水声等,并进行智能推理。
- 文字、图像、音频整合: 具备强大的多模态能力,能够“看”论文、理解其中的内容,并用自己的语言将论文内容讲解出来。
- 个性化内容推荐: 根据用户的个性化需求,MiniCPM-o 2.6 可以推荐电影、音乐、书籍,甚至进行简单的闲聊,满足日常需求。
这么全能的小钢炮,其实只用到了 8B 参数,它的具体架构如【图2】,我们先来看图片左上角:
• Speech Embedding (Eₛ):语音嵌入,表示将语音信号转换为可被模型处理的数值格式,以便进一步解析。
• OTDM(Omni-modality Time Division Multiplexer):时间分割复用技术,用于分配时间,以便处理图像、音频等多个数据流。
• 视觉流(StreamV):处理摄像头或视频的视觉数据。
• 音频流(StreamA):处理背景音或语音数据。
• 用户查询音频(QueryA):处理用户的问题或指令。
• Omitted Inputs (ϕ):没有输入数据。
在核心架构部分,Omni-Modality Streaming Backbone(全模态流媒体主干)承担着重要任务,它连接和处理来自不同模态的数据流,是模型的核心。
右上角的“Streaming Speech Decoder”,是语音解码器,它能将语音输入转换为文本输出。
此外,架构中还有一个很有趣的部分——时间线(Time),从 t1 到 t13 对应着不同的时间点,每个时间点上,模型在处理不同的输入数据:
- 在 t4 时,模型接收到用户的音频查询:“什么刚跑过去?”
- 在 t12 时,用户请求模型:“快乐地读一首诗。”
实验结果方面如【图3】,可以看到,MiniCPM-o 2.6 在多个领域表现出色,尤其是在实时视频流处理、语音查询和光学字符识别等方面,展现了强大的处理能力。
感兴趣的小伙伴可以点击:
网页链接
刚刚,面壁智能发布了平板可用的端侧模型——MiniCPM-o 2.6,它把看、听、说全部结合在一起,展现了强大的多模态处理能力。
先来看一波效果,在【视频1】中,用户拿着搭载 MiniCPM-o 2.6 的平板,一口气为我们展现了五大能力:
- 实时场景理解与追踪: 通过摄像头,MiniCPM-o 2.6 能实时回答关于当前环境的问题,比如“现在发生了什么?”或“具体位置在哪?”等。
- 多语言与多口音对话: 无论是中文、英文,还是特定口音的语言,MiniCPM-o 2.6 都能流畅进行对话,甚至支持角色扮演。
- 环境音识别与推理: 能够识别周围环境的声音,并推理出事件。例如,它能听出敲门声、打喷嚏声、倒水声等,并进行智能推理。
- 文字、图像、音频整合: 具备强大的多模态能力,能够“看”论文、理解其中的内容,并用自己的语言将论文内容讲解出来。
- 个性化内容推荐: 根据用户的个性化需求,MiniCPM-o 2.6 可以推荐电影、音乐、书籍,甚至进行简单的闲聊,满足日常需求。
这么全能的小钢炮,其实只用到了 8B 参数,它的具体架构如【图2】,我们先来看图片左上角:
• Speech Embedding (Eₛ):语音嵌入,表示将语音信号转换为可被模型处理的数值格式,以便进一步解析。
• OTDM(Omni-modality Time Division Multiplexer):时间分割复用技术,用于分配时间,以便处理图像、音频等多个数据流。
• 视觉流(StreamV):处理摄像头或视频的视觉数据。
• 音频流(StreamA):处理背景音或语音数据。
• 用户查询音频(QueryA):处理用户的问题或指令。
• Omitted Inputs (ϕ):没有输入数据。
在核心架构部分,Omni-Modality Streaming Backbone(全模态流媒体主干)承担着重要任务,它连接和处理来自不同模态的数据流,是模型的核心。
右上角的“Streaming Speech Decoder”,是语音解码器,它能将语音输入转换为文本输出。
此外,架构中还有一个很有趣的部分——时间线(Time),从 t1 到 t13 对应着不同的时间点,每个时间点上,模型在处理不同的输入数据:
- 在 t4 时,模型接收到用户的音频查询:“什么刚跑过去?”
- 在 t12 时,用户请求模型:“快乐地读一首诗。”
实验结果方面如【图3】,可以看到,MiniCPM-o 2.6 在多个领域表现出色,尤其是在实时视频流处理、语音查询和光学字符识别等方面,展现了强大的处理能力。
感兴趣的小伙伴可以点击:
