【[105星]grps_trtllm:比vLLM更高效的OpenAI LLM服务。亮点:1. 纯C++实现,性能大幅提升;2. 支持多模态、AI Agents和分布式多GPU推理;3
2025-03-10浏览详情
【HunyuanVideo:大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练】'HunyuanVi
2024-12-18浏览详情
【Awesome-Scene-Graph-Generation:一个场景图生成(SGG)相关论文的精选集,包含了图像、视频、音频、3D等多模态场景图生成研究论文,
2024-12-02浏览详情
【AnyModal:基于PyTorch的灵活多模态语言模型框架。支持轻松集成图像、音频等多种输入模态,提供模块化的架构设计,包含输入处理器、
2024-11-24浏览详情
【TemporalBench:视频理解基准测试工具,专门评估多模态视频模型对细节时间动态和动作的理解能力,包含约10K视频问答对,源自2K高质量的
2024-11-13浏览详情
【MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量】'MMIE: M
2024-11-06浏览详情
【Mini-LLaVA:一款轻量级的多模态大语言模型,能处理图像、文本和视频输入,实现高效且灵活的多模态数据处理】'Mini-LLaVA - A minima
2024-09-28浏览详情
【Gemini API Quickstart:通过Python快速入门Gemini API,体验Google AI的多模态能力,适合开发者快速搭建基于Gemini的应用程序】'Get
2024-09-14浏览详情
【JoinMusic/fish:基于Transformer的AI音乐多模态项目,自动生成歌曲的和弦、节拍、歌词、旋律和吉他谱】'JoinMusic/fish - YouTube
2024-08-21浏览详情
【MixTeX多模态LaTeX OCR工具:一款在Windows系统上进行高效CPU基础推理的本地离线LaTeX公式、表格和混合文本识别工具,支持中英文处
2024-08-20浏览详情
【基于RWKV语言模型的语音识别工具:探索性实验项目,旨在使冻结的预训练RWKV语言模型接受语音输入,实现文本到语音的转换】'RWKV-ASR'
【Lamucal:基于Transformer的音乐多模态模型,能为任何歌曲提供和弦、节奏、歌词、旋律和吉他谱】'Lamucal - A transformer-based m
2024-08-18浏览详情
正在拼命加载中
我是有底线的
没有更多的页面可以加载啦!