一个新开源的视觉大模型，效果很不错

黄建同学
2024-10-12 01:02:14

一个新开源的视觉大模型，效果很不错！

Aria 是Rhymes.AI的一个新模型：可以接受图像/视频输入的 25.3B 多模态大模型。ai 科技

特点：
•SoTA 多模态原生性能：Aria 在广泛的多模态、语言和编码任务上表现出色。它在视频和文档理解方面表现出色。
•轻量且快速：Aria 是一个混合专家模型，每个 token 有 3.9B 激活参数。它能高效地对不同大小和长宽比的视觉输入进行编码。
•长多模态上下文窗口：Aria 支持最多 64K 个 token 的多模态输入。它可以在 10 秒内为 256 帧的视频配上字幕。

访问：huggingface.co/rhymes-ai/Aria
Blog：www.rhymes.ai/blog-details/aria-first-open-multimodal-native-moe-model

ChatGPT