LLM in a flash: Efficient...
- AMiner学术头条
- 2024-09-01 02:25:53
LLM in a flash: Efficient Large Language Model Inference with Limited Memory
网页链接
这篇论文研究了如何在内存有限的情况下高效运行超过DRAM容量的large language models(LLMs)。论文提出了一种名为"LLM in a flash"的方法,通过将模型参数存储在闪存中,根据需要将其加载到DRAM中,解决了这个问题。该方法构建了一个与闪存行为相协调的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量,以及以更大的连续块读取数据。在这个闪存内存通知框架内,我们引入了两种主要技术。首先,"windowing"通过重用先前激活的神经元有策略地减少数据传输,其次,"行-列捆绑"针对闪存内存的顺序数据访问优势,增加从闪存内存读取的数据块大小。这些方法共同实现了在CPU和GPU中与闪存内存加载方法相比,模型运行速度提高了4-5倍和20-25倍,使模型能够达到DRAM容量的两倍。此外,论文还提出了一种硬件导向的设计,使有限内存设备能够有效地推理LLM。
考博
人工智能
论文写作
大模型

这篇论文研究了如何在内存有限的情况下高效运行超过DRAM容量的large language models(LLMs)。论文提出了一种名为"LLM in a flash"的方法,通过将模型参数存储在闪存中,根据需要将其加载到DRAM中,解决了这个问题。该方法构建了一个与闪存行为相协调的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量,以及以更大的连续块读取数据。在这个闪存内存通知框架内,我们引入了两种主要技术。首先,"windowing"通过重用先前激活的神经元有策略地减少数据传输,其次,"行-列捆绑"针对闪存内存的顺序数据访问优势,增加从闪存内存读取的数据块大小。这些方法共同实现了在CPU和GPU中与闪存内存加载方法相比,模型运行速度提高了4-5倍和20-25倍,使模型能够达到DRAM容量的两倍。此外,论文还提出了一种硬件导向的设计,使有限内存设备能够有效地推理LLM。



