Mistral发布视觉模型

量子位
2024-11-22 07:59:52

Mistral发布视觉模型

刚刚，Mistral的CEO在社交平台宣布：公司推出了新模型Pixtral Large，并对旗下AI聊天机器人Le Chat进行了全面升级。

Pixtral Large是一个1240亿参数的视觉模型，能够同时处理多达128张高分辨率图像，并支持最长相当于300页文档的上下文。

它在文档分析、图表理解、OCR等任务上表现突出，在 MathVista数学推理测试中，Pixtral Large得分达到了69.4%，超越了其竞争对手GPT-4o和Gemini1.5Pro。

在Le Chat方面，本次更新引入了三大核心功能：【图2】。

1. 画布（Canvas）：
- 用户可以在画布中创建文档、演示文稿、代码或草图。
- 支持实时编辑，并可导出为多种格式，提升了创作效率。

2. 网络搜索：
- 实现即时获取和整合网络信息的能力。

3. 图像生成：
- 该功能由Mistral与Black Forest Labs联合打造。
- Black Forest Labs已为埃隆·马斯克旗下的xAI提供图像生成支持。

据外媒VentureBeat报道，相较于ChatGPT、Perplexity和Claude等平台需要付费订阅才能获得类似的功能，Le Chat的这些功能在其测试阶段全都免费提供。