多模态

【[105星]grps_trtllm：比vLLM更高效的OpenAI LLM服务。亮点：1. 纯C++实现，性能大幅提升；2. 支持多模态、AI Agents和分布式多GPU推理；3

【HunyuanVideo：大型视频生成模型的系统框架，能够生成与领先闭源模型相媲美的视频，支持多模态信息融合和大规模模型训练】'HunyuanVi

【Awesome-Scene-Graph-Generation：一个场景图生成(SGG)相关论文的精选集，包含了图像、视频、音频、3D等多模态场景图生成研究论文，

【AnyModal：基于PyTorch的灵活多模态语言模型框架。支持轻松集成图像、音频等多种输入模态，提供模块化的架构设计，包含输入处理器、

【TemporalBench：视频理解基准测试工具，专门评估多模态视频模型对细节时间动态和动作的理解能力，包含约10K视频问答对，源自2K高质量的

【MMIE：大型视觉语言模型的海量多模态交叉理解基准测试，旨在评估模型在不同领域中的理解与生成能力，支持自动化的可靠度量】'MMIE: M

【Mini-LLaVA：一款轻量级的多模态大语言模型，能处理图像、文本和视频输入，实现高效且灵活的多模态数据处理】'Mini-LLaVA - A minima

【Gemini API Quickstart：通过Python快速入门Gemini API，体验Google AI的多模态能力，适合开发者快速搭建基于Gemini的应用程序】'Get

【JoinMusic/fish：基于Transformer的AI音乐多模态项目，自动生成歌曲的和弦、节拍、歌词、旋律和吉他谱】'JoinMusic/fish - YouTube

【MixTeX多模态LaTeX OCR工具：一款在Windows系统上进行高效CPU基础推理的本地离线LaTeX公式、表格和混合文本识别工具，支持中英文处

【基于RWKV语言模型的语音识别工具：探索性实验项目，旨在使冻结的预训练RWKV语言模型接受语音输入，实现文本到语音的转换】'RWKV-ASR'

【Lamucal：基于Transformer的音乐多模态模型，能为任何歌曲提供和弦、节奏、歌词、旋律和吉他谱】'Lamucal - A transformer-based m

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！