[105星]grps_trtllm:比vLLM更高效的OpenAI LLM服务。亮点:1. 纯C++实现,性能大幅提升;2. 支持多模态、AI Agents和分布式多GPU推理;3. 提供Gradio

[105星]grps_trtllm:比vLLM更高效的OpenAI LLM服务。亮点:1. 纯C++实现,性能大幅提升;2. 支持多模态、AI Agents和分布式多GPU推理;3. 提供Gradio

【[105星]grps_trtllm:比vLLM更高效的OpenAI LLM服务。亮点:1. 纯C++实现,性能大幅提升;2. 支持多模态、AI Agents和分布式多GPU推理;3

2025-03-10浏览详情

HunyuanVideo:大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练

HunyuanVideo:大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练

【HunyuanVideo:大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练】'HunyuanVi

2024-12-18浏览详情

Awesome-Scene-Graph-Generation:一个场景图生成(SGG)相关论文的精选集,包含了图像、视频、音频、3D等多模态场景图生成研究论文,并归纳了场景图数据集、评估指标以及在图像

Awesome-Scene-Graph-Generation:一个场景图生成(SGG)相关论文的精选集,包含了图像、视频、音频、3D等多模态场景图生成研究论文,并归纳了场景图数据集、评估指标以及在图像

【Awesome-Scene-Graph-Generation:一个场景图生成(SGG)相关论文的精选集,包含了图像、视频、音频、3D等多模态场景图生成研究论文,

2024-12-02浏览详情

AnyModal:基于PyTorch的灵活多模态语言模型框架。支持轻松集成图像、音频等多种输入模态,提供模块化的架构设计,包含输入处理器、编码器和分词器三大核心组件。框架可扩展性强,便于添加新的输入模

AnyModal:基于PyTorch的灵活多模态语言模型框架。支持轻松集成图像、音频等多种输入模态,提供模块化的架构设计,包含输入处理器、编码器和分词器三大核心组件。框架可扩展性强,便于添加新的输入模

【AnyModal:基于PyTorch的灵活多模态语言模型框架。支持轻松集成图像、音频等多种输入模态,提供模块化的架构设计,包含输入处理器、

2024-11-24浏览详情

TemporalBench:视频理解基准测试工具,专门评估多模态视频模型对细节时间动态和动作的理解能力,包含约10K视频问答对,源自2K高质量的人工注释视频字幕

TemporalBench:视频理解基准测试工具,专门评估多模态视频模型对细节时间动态和动作的理解能力,包含约10K视频问答对,源自2K高质量的人工注释视频字幕

【TemporalBench:视频理解基准测试工具,专门评估多模态视频模型对细节时间动态和动作的理解能力,包含约10K视频问答对,源自2K高质量的

2024-11-13浏览详情

MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量

MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量

【MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量】'MMIE: M

2024-11-06浏览详情

Mini-LLaVA:一款轻量级的多模态大语言模型,能处理图像、文本和视频输入,实现高效且灵活的多模态数据处理

Mini-LLaVA:一款轻量级的多模态大语言模型,能处理图像、文本和视频输入,实现高效且灵活的多模态数据处理

【Mini-LLaVA:一款轻量级的多模态大语言模型,能处理图像、文本和视频输入,实现高效且灵活的多模态数据处理】'Mini-LLaVA - A minima

2024-09-28浏览详情

Gemini API Quickstart:通过Python快速入门Gemini API,体验Google AI的多模态能力,适合开发者快速搭建基于Gemini的应用程序

Gemini API Quickstart:通过Python快速入门Gemini API,体验Google AI的多模态能力,适合开发者快速搭建基于Gemini的应用程序

【Gemini API Quickstart:通过Python快速入门Gemini API,体验Google AI的多模态能力,适合开发者快速搭建基于Gemini的应用程序】'Get

2024-09-14浏览详情

JoinMusic/fish:基于Transformer的AI音乐多模态项目,自动生成歌曲的和弦、节拍、歌词、旋律和吉他谱

JoinMusic/fish:基于Transformer的AI音乐多模态项目,自动生成歌曲的和弦、节拍、歌词、旋律和吉他谱

【JoinMusic/fish:基于Transformer的AI音乐多模态项目,自动生成歌曲的和弦、节拍、歌词、旋律和吉他谱】'JoinMusic/fish - YouTube

2024-08-21浏览详情

MixTeX多模态LaTeX OCR工具:一款在Windows系统上进行高效CPU基础推理的本地离线LaTeX公式、表格和混合文本识别工具,支持中英文处理,无需GPU资源,适合所有Windows计算机

MixTeX多模态LaTeX OCR工具:一款在Windows系统上进行高效CPU基础推理的本地离线LaTeX公式、表格和混合文本识别工具,支持中英文处理,无需GPU资源,适合所有Windows计算机

【MixTeX多模态LaTeX OCR工具:一款在Windows系统上进行高效CPU基础推理的本地离线LaTeX公式、表格和混合文本识别工具,支持中英文处

2024-08-20浏览详情

基于RWKV语言模型的语音识别工具:探索性实验项目,旨在使冻结的预训练RWKV语言模型接受语音输入,实现文本到语音的转换

基于RWKV语言模型的语音识别工具:探索性实验项目,旨在使冻结的预训练RWKV语言模型接受语音输入,实现文本到语音的转换

【基于RWKV语言模型的语音识别工具:探索性实验项目,旨在使冻结的预训练RWKV语言模型接受语音输入,实现文本到语音的转换】'RWKV-ASR'

2024-08-20浏览详情

Lamucal:基于Transformer的音乐多模态模型,能为任何歌曲提供和弦、节奏、歌词、旋律和吉他谱

Lamucal:基于Transformer的音乐多模态模型,能为任何歌曲提供和弦、节奏、歌词、旋律和吉他谱

【Lamucal:基于Transformer的音乐多模态模型,能为任何歌曲提供和弦、节奏、歌词、旋律和吉他谱】'Lamucal - A transformer-based m

2024-08-18浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!