大模型日报

面向创新连贯LLM输出的Min-p采样

面向创新连贯LLM输出的Min-p采样

大模型日报ai前沿动态

【面向创新连贯LLM输出的Min-p采样】

链接：网页链接
论文概述：本文提出了min-p采样，一种动态调整阈值的采

2025-01-02 浏览详情

抽象的涌现: Transformer上下文学习的概念编码和解码机制

抽象的涌现: Transformer上下文学习的概念编码和解码机制

大模型日报 ai前沿动态

【抽象的涌现: Transformer上下文学习的概念编码和解码机制】

链接：网页链接
论文概述：本文通过提出“

2024-12-24 浏览详情

用机器学习探索物理概念和方程式

用机器学习探索物理概念和方程式

大模型日报 ai前沿动态

【用机器学习探索物理概念和方程式】

链接：网页链接
论文概述：该论文提出了一种新的基于机器学习的框架，

2024-12-23 浏览详情

随机特征集成没有免费午餐

ai前沿动态大模型日报

【随机特征集成没有免费午餐】

链接：网页链接
论文概述：本文从理论和实验上证明了，在超参数最佳调优的前

2024-12-20 浏览详情

用多步预测Transformer实现迷宫导航

用多步预测Transformer实现迷宫导航

大模型日报 ai前沿动态

【用多步预测Transformer实现迷宫导航】

链接：网页链接
论文概述：本文通过提出一种新的多步预测目标函数

2024-12-12 浏览详情

Transformer模型搜索能力缺陷研究

Transformer模型搜索能力缺陷研究

大模型日报 ai前沿动态

【Transformer模型搜索能力缺陷研究】

链接：网页链接
论文概述：本文通过图连通性问题，揭示了Transformer

2024-12-12 浏览详情

MALT：用多智能体LLM训练改进推理

MALT：用多智能体LLM训练改进推理

大模型日报 ai前沿动态

【MALT：用多智能体LLM训练改进推理】

链接：网页链接
论文概述：MALT 提出了一种创新的多智能体大语言模型

2024-12-11 浏览详情

SAMURAI：适配SAM2实现基于动作感知记忆的零样本视觉跟踪

SAMURAI：适配SAM2实现基于动作感知记忆的零样本视觉跟踪

大模型日报 ai前沿动态

【SAMURAI：适配SAM2实现基于动作感知记忆的零样本视觉跟踪】

链接：网页链接
论文概述： SAMURAI 通过巧妙

2024-12-05 浏览详情

XGrammar：灵活高效的大型语言模型结构化生成引擎

XGrammar：灵活高效的大型语言模型结构化生成引擎

大模型日报 ai前沿动态

【XGrammar：灵活高效的大型语言模型结构化生成引擎】

链接：网页链接
论文概述：XGrammar 通过巧妙地将 LLM

2024-12-04 浏览详情

安全对齐不应该只是几个Token的深度

安全对齐不应该只是几个Token的深度

大模型日报 ai前沿动态

【安全对齐不应该只是几个Token的深度】

链接：网页链接
论文概述：本文揭示了大型语言模型安全对齐的“浅

2024-12-04 浏览详情

Marco-o1：面向开放式解决方案的开放式推理模型

Marco-o1：面向开放式解决方案的开放式推理模型

大模型日报 ai前沿动态

【Marco-o1：面向开放式解决方案的开放式推理模型】

链接：网页链接
论文概述：Marco-o1模型通过结合CoT微调

2024-12-01 浏览详情

推理缩放 Laws：不完美验证器LLM重采样的局限性

推理缩放 Laws：不完美验证器LLM重采样的局限性

大模型日报 ai前沿动态

【推理缩放 Laws：不完美验证器LLM重采样的局限性】

链接：网页链接
论文概述：本文通过实证研究揭示了使用

2024-12-01 浏览详情

面向AI安全的NeuroAI路线图

面向AI安全的NeuroAI路线图

大模型日报 ai前沿动态

【面向AI安全的NeuroAI路线图】

链接：网页链接
论文概述：本文提出了一份利用神经科学原理提升人工智能系

2024-11-30 浏览详情

用动态词元化方法改造(大型)语言模型

用动态词元化方法改造(大型)语言模型

大模型日报 ai前沿动态

【用动态词元化方法改造(大型)语言模型】

链接：网页链接
论文概述：本文提出了一种基于超网络的动态词元

2024-11-30 浏览详情

语言模型靠启发式方法集合求解算术问题

语言模型靠启发式方法集合求解算术问题

大模型日报 ai前沿动态

【语言模型靠启发式方法集合求解算术问题】

链接：网页链接
论文概述：大型语言模型并非通过算法或记忆来

2024-11-29 浏览详情

Bi-Mamba：精确1-bit状态空间模型研究

Bi-Mamba：精确1-bit状态空间模型研究

大模型日报 ai前沿动态

【Bi-Mamba：精确1-bit状态空间模型研究】

链接：网页链接
论文概述：Bi-Mamba通过创新的量化感知训练方法，将

2024-11-28 浏览详情

理解面向回归的LLM嵌入

大模型日报 ai前沿动态

【理解面向回归的LLM嵌入】

链接：网页链接
论文概述：该论文深入研究了大型语言模型嵌入在回归任务中的应

2024-11-28 浏览详情

大型语言模型分布对齐基准测试

大模型日报ai前沿动态

【大型语言模型分布对齐基准测试】

链接：网页链接
论文概述：本文通过构建一个新的基准测试系统，系统性地评

2024-11-23 浏览详情

MemoryFormer：通过移除全连接层来最小化Transformer计算

MemoryFormer：通过移除全连接层来最小化Transformer计算

大模型日报 ai前沿动态

【MemoryFormer：通过移除全连接层来最小化Transformer计算】

链接：网页链接
论文概述：MemoryFormer 提出

2024-11-23 浏览详情

超越类人处理：大型语言模型在前向和后向科学文本上的表现相当

超越类人处理：大型语言模型在前向和后向科学文本上的表现相当

大模型日报 ai前沿动态

【超越类人处理：大型语言模型在前向和后向科学文本上的表现相当】

链接：网页链接
论文概述：本文探究了大

2024-11-21 浏览详情

聚合标签的弱学习器到强学习器提升

聚合标签的弱学习器到强学习器提升

大模型日报 ai前沿动态

【聚合标签的弱学习器到强学习器提升】

链接：网页链接
论文概述：本文证明了在 LLP 和 MIL 场景下提升算

2024-11-21 浏览详情

上下文充分性：检索增强生成系统的新视角

上下文充分性：检索增强生成系统的新视角

大模型日报 ai前沿动态

【上下文充分性：检索增强生成系统的新视角】

链接：网页链接
论文概述：本文通过定义“上下文充分性”并开

2024-11-17 浏览详情

大语言模型的越狱提示有哪些特征？攻击背后机制调查

大语言模型的越狱提示有哪些特征？攻击背后机制调查

大模型日报 ai前沿动态

【大语言模型的越狱提示有哪些特征？攻击背后机制调查】

链接：网页链接
论文概述：本文通过构建大型越狱数

2024-11-10 浏览详情

正在拼命加载中

我是有底线的

没有更多的页面可以加载啦！