记忆层在LLMs中存储facts时使用的...

西晋无畏的鱼丸
2025-01-13 21:33:06

记忆层在LLMs中存储facts时使用的计算量比传统密集层少10倍。

因此，这些记忆增强的LLMs在计算量减少90%的情况下实现了与更大模型相同的准确性。

记忆层为LLMs添加了可训练的键值查找，能够在不增加计算成本的情况下增加参数，显著提高了事实准确性。

原始问题：

LLMs需要大量计算来存储和回忆简单的事实，如生日或首都城市。当前的密集神经网络对于这种基本信息存储效率低下。

本文中的解决方案：

→ 记忆层使用可训练的键值查找来增加额外参数而不增加FLOPs

→ 系统实现了产品键查找，使用两组键进行高效检索

→ 记忆参数在多个层之间共享，同时保持参数数量不变

→ 自定义CUDA内核实现了3 TB/s的内存带宽，而PyTorch中为400 GB/s

→ 优化的反向传递使用无原子的方法以获得更好的梯度计算

关键见解：

→ 记忆层补充了密集前馈层，以更低成本存储信息

→ 成功扩展到128B记忆参数，训练于1T个token

→ 对于事实问答、编码和知识任务特别有效

→ 提供了在不需要大量计算的情况下扩展AI的路径

结果：

→ 模型在使用2倍计算预算的情况下优于密集版本

→ 在问答基准测试中事实准确性提高100%

→ 在64M键时，1.3B记忆模型与使用10倍FLOPs训练的Llama2 7B相匹配

→ 记忆增强的8B模型等同于在15倍token上训练的模型

论文标题：“大规模记忆层” AI创造营