Deepseek-v3 101:Deepseek-v3架构解读

Deepseek-v3 101:Deepseek-v3架构解读

【Deepseek-v3 101:Deepseek-v3架构解读】
'Deepseek-v3 101'
语言模型 开源模型 高效推理 AI创造营

2025-01-28浏览详情

Aviary:基于 Gymnasium 框架的语言模型Agent训练平台,专注于构建性任务

Aviary:基于 Gymnasium 框架的语言模型Agent训练平台,专注于构建性任务

【Aviary:基于 Gymnasium 框架的语言模型Agent训练平台,专注于构建性任务】’Future-House/aviary: Gymnasium framework for train

2025-01-08浏览详情

Llama3.cu:用于 LLaMA 3 8B 参数版本的轻量级 CUDA C 语言实现的推理引擎,旨在在 Nvidia GPU 上进行高效的并行处理

Llama3.cu:用于 LLaMA 3 8B 参数版本的轻量级 CUDA C 语言实现的推理引擎,旨在在 Nvidia GPU 上进行高效的并行处理

【Llama3.cu:用于 LLaMA 3 8B 参数版本的轻量级 CUDA C 语言实现的推理引擎,旨在在 Nvidia GPU 上进行高效的并行处理】'Llama3.cu

2025-01-07浏览详情

Simple CSC:一款基于大型语言模型的中文拼写纠错工具,无需训练和提示,简单高效

Simple CSC:一款基于大型语言模型的中文拼写纠错工具,无需训练和提示,简单高效

【Simple CSC:一款基于大型语言模型的中文拼写纠错工具,无需训练和提示,简单高效】'simple-csc - A simple yet effective training-

2025-01-04浏览详情

YuLan-Mini:数据高效的开源语言模型,以较少的数据量实现媲美行业领先模型的性能,尤其在数学和代码领域表现出色

YuLan-Mini:数据高效的开源语言模型,以较少的数据量实现媲美行业领先模型的性能,尤其在数学和代码领域表现出色

【YuLan-Mini:数据高效的开源语言模型,以较少的数据量实现媲美行业领先模型的性能,尤其在数学和代码领域表现出色】'YuLan-Mini: 数

2024-12-30浏览详情

ParLlama:一款为Ollama语言模型设计的文本用户界面(TUI)应用,让用户轻松管理和使用基于Ollama的大型语言模型(LLMs),支持深色和浅色模式以及自定义主题

ParLlama:一款为Ollama语言模型设计的文本用户界面(TUI)应用,让用户轻松管理和使用基于Ollama的大型语言模型(LLMs),支持深色和浅色模式以及自定义主题

【ParLlama:一款为Ollama语言模型设计的文本用户界面(TUI)应用,让用户轻松管理和使用基于Ollama的大型语言模型(LLMs),支持深色和浅色模

2024-12-18浏览详情

xLSTM-jax: JAX 实现的 xLSTM 模型库,提供高效的训练和推理代码

xLSTM-jax: JAX 实现的 xLSTM 模型库,提供高效的训练和推理代码

【xLSTM-jax: JAX 实现的 xLSTM 模型库,提供高效的训练和推理代码】'NX-AI/xlstm-jax: Official JAX implementation of xLSTM incl

2024-12-16浏览详情

OLMo-core:AI2开源的OLMo语言模型核心构建模块,基于PyTorch实现,提供了完整的模型训练和优化组件,支持多种规模模型(1B-13B)训练,包含flash attention、floa

OLMo-core:AI2开源的OLMo语言模型核心构建模块,基于PyTorch实现,提供了完整的模型训练和优化组件,支持多种规模模型(1B-13B)训练,包含flash attention、floa

【OLMo-core:AI2开源的OLMo语言模型核心构建模块,基于PyTorch实现,提供了完整的模型训练和优化组件,支持多种规模模型(1B-13B)训练,包

2024-12-10浏览详情

Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、

Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、

【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布

2024-11-25浏览详情

免费大型语言模型API资源:一个汇集了可通过API访问的免费大型语言模型(LLM)推理资源的列表

免费大型语言模型API资源:一个汇集了可通过API访问的免费大型语言模型(LLM)推理资源的列表

【免费大型语言模型API资源:一个汇集了可通过API访问的免费大型语言模型(LLM)推理资源的列表】'cheahjs/free-llm-api-resources: A

2024-11-20浏览详情

LLM Prompt Tuning Playbook:一本教你如何高效“提示”训练后的大型语言模型(LLM)的手册,主要功能是提供心智模型和具体指导,帮你更好地与LLM互动

LLM Prompt Tuning Playbook:一本教你如何高效“提示”训练后的大型语言模型(LLM)的手册,主要功能是提供心智模型和具体指导,帮你更好地与LLM互动

【LLM Prompt Tuning Playbook:一本教你如何高效“提示”训练后的大型语言模型(LLM)的手册,主要功能是提供心智模型和具体指导,帮你更

2024-11-14浏览详情

lijigang/prompts:为大型语言模型提供的结构化提示集合,帮助用户以更有效的方式与AI对话,提升交互体验

lijigang/prompts:为大型语言模型提供的结构化提示集合,帮助用户以更有效的方式与AI对话,提升交互体验

【lijigang/prompts:为大型语言模型提供的结构化提示集合,帮助用户以更有效的方式与AI对话,提升交互体验】'lijigang/prompts: 结构

2024-11-07浏览详情

InterProt:一个用于解释蛋白质语言模型的工具集合,包含前端应用以可视化SAE特征和Python包用于SAE训练与解释

InterProt:一个用于解释蛋白质语言模型的工具集合,包含前端应用以可视化SAE特征和Python包用于SAE训练与解释

【InterProt:一个用于解释蛋白质语言模型的工具集合,包含前端应用以可视化SAE特征和Python包用于SAE训练与解释】'InterProt - Tool

2024-11-05浏览详情

Adaline Gateway:一款本地生产级别的超级软件开发工具包SDK,提供简单、统一且强大的接口,可调用200多种大型语言模型LLMs,支持本地部署,功能丰富,不依赖外部代理

Adaline Gateway:一款本地生产级别的超级软件开发工具包SDK,提供简单、统一且强大的接口,可调用200多种大型语言模型LLMs,支持本地部署,功能丰富,不依赖外部代理

【Adaline Gateway:一款本地生产级别的超级软件开发工具包SDK,提供简单、统一且强大的接口,可调用200多种大型语言模型LLMs,支持本地

2024-10-23浏览详情

Meta Lingua:一个轻量级、高效、易于修改的大型语言模型(LLM)研究代码库,主要功能是支持研究者进行模型训练和推理,具有易于修改的PyTorch组件,方便尝试新的架构、损失函数和数据集

Meta Lingua:一个轻量级、高效、易于修改的大型语言模型(LLM)研究代码库,主要功能是支持研究者进行模型训练和推理,具有易于修改的PyTorch组件,方便尝试新的架构、损失函数和数据集

【Meta Lingua:一个轻量级、高效、易于修改的大型语言模型(LLM)研究代码库,主要功能是支持研究者进行模型训练和推理,具有易于修改的Py

2024-10-21浏览详情

Block Sparse Attention:支持混合稀疏模式的稀疏注意力核心库,主要用于优化大型语言模型的计算性能,有效降低推理成本

Block Sparse Attention:支持混合稀疏模式的稀疏注意力核心库,主要用于优化大型语言模型的计算性能,有效降低推理成本

【Block Sparse Attention:支持混合稀疏模式的稀疏注意力核心库,主要用于优化大型语言模型的计算性能,有效降低推理成本】'mit-han-l

2024-10-21浏览详情

mcts-llm:集成了蒙特卡洛树搜索(MCTS)和提示工程技术的轻量级项目,旨在提高大型语言模型(LLMs)的性能

mcts-llm:集成了蒙特卡洛树搜索(MCTS)和提示工程技术的轻量级项目,旨在提高大型语言模型(LLMs)的性能

【mcts-llm:集成了蒙特卡洛树搜索(MCTS)和提示工程技术的轻量级项目,旨在提高大型语言模型(LLMs)的性能】'mcts-llm - MCTS + LLM + Pro

2024-10-14浏览详情

数据中心语言模型研究精选:汇总了数据为中心的语言模型研究领域内的趋势项目和优秀论文,包含大规模数据整理、数据质量评估、评估工具包等

数据中心语言模型研究精选:汇总了数据为中心的语言模型研究领域内的趋势项目和优秀论文,包含大规模数据整理、数据质量评估、评估工具包等

【数据中心语言模型研究精选:汇总了数据为中心的语言模型研究领域内的趋势项目和优秀论文,包含大规模数据整理、数据质量评估、评估

2024-10-12浏览详情

WebLLM Playground:开源的前端项目,旨在在浏览器中运行大型语言模型(LLM),通过 MLC-LLM 和 WebLLM Chat 实现,支持用户通过简单的界面与模型进行交互,无需复杂的配

WebLLM Playground:开源的前端项目,旨在在浏览器中运行大型语言模型(LLM),通过 MLC-LLM 和 WebLLM Chat 实现,支持用户通过简单的界面与模型进行交互,无需复杂的配

【WebLLM Playground:开源的前端项目,旨在在浏览器中运行大型语言模型(LLM),通过 MLC-LLM 和 WebLLM Chat 实现,支持用户通过简单的界面

2024-10-06浏览详情

TPI-LLM:一款高性能的边缘设备语言模型推理系统,能够在资源有限的设备上运行大型语言模型,保护用户隐私,减少延迟。目前,TPI-LLM 能够在 4 台内存为 5GB 的笔记本电脑上以完整精度运行

TPI-LLM:一款高性能的边缘设备语言模型推理系统,能够在资源有限的设备上运行大型语言模型,保护用户隐私,减少延迟。目前,TPI-LLM 能够在 4 台内存为 5GB 的笔记本电脑上以完整精度运行

【TPI-LLM:一款高性能的边缘设备语言模型推理系统,能够在资源有限的设备上运行大型语言模型,保护用户隐私,减少延迟。目前,TPI-LLM 能

2024-10-05浏览详情

AntiSlop:高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 “GPT slop”)的生成概率

AntiSlop:高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 “GPT slop”)的生成概率

【AntiSlop:高级文本生成工具,旨在提高语言模型输出的质量和多样性,通过动态调整和回溯机制来减少指定的过度使用词汇和短语(即 “GPT

2024-10-02浏览详情

FunctionChat-Bench:对话场景下语言模型工具使用能力的评估工具,专门设计来测试语言模型在对话中调用工具的能力,包括单轮和多轮对话场景

FunctionChat-Bench:对话场景下语言模型工具使用能力的评估工具,专门设计来测试语言模型在对话中调用工具的能力,包括单轮和多轮对话场景

【FunctionChat-Bench:对话场景下语言模型工具使用能力的评估工具,专门设计来测试语言模型在对话中调用工具的能力,包括单轮和多轮对

2024-10-01浏览详情

Claude Prompt Generator:一款用于生成和优化语言模型提示的工具,支持从零开始创建提示或将现有提示转换为Claude3提示,以提高输出效果和对齐度

Claude Prompt Generator:一款用于生成和优化语言模型提示的工具,支持从零开始创建提示或将现有提示转换为Claude3提示,以提高输出效果和对齐度

【Claude Prompt Generator:一款用于生成和优化语言模型提示的工具,支持从零开始创建提示或将现有提示转换为Claude3提示,以提高输出

2024-09-11浏览详情

WavTokenizer:40个令牌每秒的SOTA离散声码器模型,用于音频语言建模,能够以极小的数据量高效表示语音、音乐和音频

WavTokenizer:40个令牌每秒的SOTA离散声码器模型,用于音频语言建模,能够以极小的数据量高效表示语音、音乐和音频

【WavTokenizer:40个令牌每秒的SOTA离散声码器模型,用于音频语言建模,能够以极小的数据量高效表示语音、音乐和音频】'SOTA Discrete

2024-09-05浏览详情

PIZZA:面向大型语言模型(LLMs)的归因库,用于计算提示中每个标记对生成响应的贡献,支持API调用和本地模型,具有迭代扰动和层次扰动等特色功能

PIZZA:面向大型语言模型(LLMs)的归因库,用于计算提示中每个标记对生成响应的贡献,支持API调用和本地模型,具有迭代扰动和层次扰动等特色功能

【PIZZA:面向大型语言模型(LLMs)的归因库,用于计算提示中每个标记对生成响应的贡献,支持API调用和本地模型,具有迭代扰动和层次扰动等特

2024-09-03浏览详情

Spider 2.0:企业级文本到SQL工作流的语言模型评估工具,旨在推进代码生成,特别是文本到SQL的能力,提供更复杂企业级文本到SQL工作流的现实和挑战性测试

Spider 2.0:企业级文本到SQL工作流的语言模型评估工具,旨在推进代码生成,特别是文本到SQL的能力,提供更复杂企业级文本到SQL工作流的现实和挑战性测试

【Spider 2.0:企业级文本到SQL工作流的语言模型评估工具,旨在推进代码生成,特别是文本到SQL的能力,提供更复杂企业级文本到SQL工作流

2024-09-03浏览详情

PyLate:灵活训练和检索的晚期交互模型库,基于Sentence Transformers构建,简化了ColBERT模型的微调、推理和检索过程,支持单GPU和多GPU训练,提供灵活的硬件配置支持

PyLate:灵活训练和检索的晚期交互模型库,基于Sentence Transformers构建,简化了ColBERT模型的微调、推理和检索过程,支持单GPU和多GPU训练,提供灵活的硬件配置支持

【PyLate:灵活训练和检索的晚期交互模型库,基于Sentence Transformers构建,简化了ColBERT模型的微调、推理和检索过程,支持单GPU和多G

2024-09-02浏览详情

AI2 Safety Tool:用于生成语言模型和安全分类器的简单安全评估工具,主要功能包括对生成语言模型在多个安全基准测试上的表现进行评估,以及对安全分类器在检测提示有害性、响应有害性和响应拒绝等任

AI2 Safety Tool:用于生成语言模型和安全分类器的简单安全评估工具,主要功能包括对生成语言模型在多个安全基准测试上的表现进行评估,以及对安全分类器在检测提示有害性、响应有害性和响应拒绝等任

【AI2 Safety Tool:用于生成语言模型和安全分类器的简单安全评估工具,主要功能包括对生成语言模型在多个安全基准测试上的表现进行

2024-09-02浏览详情

Ollama-SwiftUI:为Ollama.ai设计的Swift用户界面,提供与大型语言模型无缝聊天的交互体验,支持本地模型交互、多会话标签、模型下载与管理等功能

Ollama-SwiftUI:为Ollama.ai设计的Swift用户界面,提供与大型语言模型无缝聊天的交互体验,支持本地模型交互、多会话标签、模型下载与管理等功能

【Ollama-SwiftUI:为Ollama.ai设计的Swift用户界面,提供与大型语言模型无缝聊天的交互体验,支持本地模型交互、多会话标签、模型下载

2024-08-28浏览详情

Orca:基于GPT-4复杂解释轨迹的渐进式学习模型,推动自然语言理解与生成的前沿,设计高效且智能的SOTA语言模型,与OpenAI的GPT-4和PALM相媲美

Orca:基于GPT-4复杂解释轨迹的渐进式学习模型,推动自然语言理解与生成的前沿,设计高效且智能的SOTA语言模型,与OpenAI的GPT-4和PALM相媲美

【Orca:基于GPT-4复杂解释轨迹的渐进式学习模型,推动自然语言理解与生成的前沿,设计高效且智能的SOTA语言模型,与OpenAI的GPT-4和PALM

2024-08-26浏览详情

LM-class:现代语言模型教育资源,面向机器学习和神经网络基础的研究生,强调技术深度而非广度,提供强基础和自我更新知识的工具

LM-class:现代语言模型教育资源,面向机器学习和神经网络基础的研究生,强调技术深度而非广度,提供强基础和自我更新知识的工具

【LM-class:现代语言模型教育资源,面向机器学习和神经网络基础的研究生,强调技术深度而非广度,提供强基础和自我更新知识的工具】'LM-

2024-08-25浏览详情

Formatron:语言模型输出格式控制工具,通过最小化开销使每个人都能控制语言模型的输出格式,轻量级且易于集成现有代码库和框架

Formatron:语言模型输出格式控制工具,通过最小化开销使每个人都能控制语言模型的输出格式,轻量级且易于集成现有代码库和框架

【Formatron:语言模型输出格式控制工具,通过最小化开销使每个人都能控制语言模型的输出格式,轻量级且易于集成现有代码库和框架】'Fo

2024-08-23浏览详情

开放语言模型列表:提供具有宽松许可协议(如MIT或Apache 2.0)的语言模型列表,包括自回归模型和其他训练目标的模型,旨在成为快速且专注的参考资源

开放语言模型列表:提供具有宽松许可协议(如MIT或Apache 2.0)的语言模型列表,包括自回归模型和其他训练目标的模型,旨在成为快速且专注的参考资源

【开放语言模型列表:提供具有宽松许可协议(如MIT或Apache 2.0)的语言模型列表,包括自回归模型和其他训练目标的模型,旨在成为快速且专

2024-08-11浏览详情

训练AI语言模型的数据,或在2026年耗尽?

训练AI语言模型的数据,或在2026年耗尽?

预训练语言模型 【训练AI语言模型的数据,或在2026年耗尽?】

大型语言模型 是目前人工智能 研究中最热门的领域之一,各公司竞相发布

2022-12-07浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦!