LLM in a flash: Efficient...

AMiner学术头条
2024-09-01 02:25:53

LLM in a flash: Efficient Large Language Model Inference with Limited Memory网页链接
这篇论文研究了如何在内存有限的情况下高效运行超过DRAM容量的large language models(LLMs)。论文提出了一种名为"LLM in a flash"的方法，通过将模型参数存储在闪存中，根据需要将其加载到DRAM中，解决了这个问题。该方法构建了一个与闪存行为相协调的推理成本模型，指导我们在两个关键领域进行优化：减少从闪存传输的数据量，以及以更大的连续块读取数据。在这个闪存内存通知框架内，我们引入了两种主要技术。首先，"windowing"通过重用先前激活的神经元有策略地减少数据传输，其次，"行-列捆绑"针对闪存内存的顺序数据访问优势，增加从闪存内存读取的数据块大小。这些方法共同实现了在CPU和GPU中与闪存内存加载方法相比，模型运行速度提高了4-5倍和20-25倍，使模型能够达到DRAM容量的两倍。此外，论文还提出了一种硬件导向的设计，使有限内存设备能够有效地推理LLM。
考博人工智能论文写作大模型