一个新开源的视觉大模型,效果很不错

  • 黄建同学
  • 2024-10-12 01:02:14
一个新开源的视觉大模型,效果很不错!

Aria 是Rhymes.AI的一个新模型:可以接受图像/视频输入的 25.3B 多模态大模型。ai科技

特点:
•SoTA 多模态原生性能:Aria 在广泛的多模态、语言和编码任务上表现出色。它在视频和文档理解方面表现出色。
•轻量且快速:Aria 是一个混合专家模型,每个 token 有 3.9B 激活参数。它能高效地对不同大小和长宽比的视觉输入进行编码。
•长多模态上下文窗口:Aria 支持最多 64K 个 token 的多模态输入。它可以在 10 秒内为 256 帧的视频配上字幕。

访问:huggingface.co/rhymes-ai/Aria
Blog:www.rhymes.ai/blog-details/aria-first-open-multimodal-native-moe-model

ChatGPT
一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错一个新开源的视觉大模型,效果很不错