记忆层在LLMs中存储facts时使用的...

  • 西晋无畏的鱼丸
  • 2025-01-13 21:33:06
记忆层在LLMs中存储facts时使用的计算量比传统密集层少10倍。

因此,这些记忆增强的LLMs在计算量减少90%的情况下实现了与更大模型相同的准确性。

记忆层为LLMs添加了可训练的键值查找,能够在不增加计算成本的情况下增加参数,显著提高了事实准确性。

原始问题:

LLMs需要大量计算来存储和回忆简单的事实,如生日或首都城市。当前的密集神经网络对于这种基本信息存储效率低下。

本文中的解决方案:

→ 记忆层使用可训练的键值查找来增加额外参数而不增加FLOPs

→ 系统实现了产品键查找,使用两组键进行高效检索

→ 记忆参数在多个层之间共享,同时保持参数数量不变

→ 自定义CUDA内核实现了3 TB/s的内存带宽,而PyTorch中为400 GB/s

→ 优化的反向传递使用无原子的方法以获得更好的梯度计算

关键见解:

→ 记忆层补充了密集前馈层,以更低成本存储信息

→ 成功扩展到128B记忆参数,训练于1T个token

→ 对于事实问答、编码和知识任务特别有效

→ 提供了在不需要大量计算的情况下扩展AI的路径

结果:

→ 模型在使用2倍计算预算的情况下优于密集版本

→ 在问答基准测试中事实准确性提高100%

→ 在64M键时,1.3B记忆模型与使用10倍FLOPs训练的Llama2 7B相匹配

→ 记忆增强的8B模型等同于在15倍token上训练的模型

论文标题:“大规模记忆层” AI创造营
记忆层在LLMs中存储facts时使用的...记忆层在LLMs中存储facts时使用的...