MemoryFormer:通过移除全连接层来最小化Transformer计算 OneFlow 2024-11-23 20:12:55 大模型日报 ai前沿动态 【MemoryFormer:通过移除全连接层来最小化Transformer计算】链接:网页链接论文概述:MemoryFormer 提出了一种创新的 Transformer 架构,通过利用局部敏感哈希算法替换全连接层,显著降低了模型计算复杂度,同时保持了与基线模型相当甚至更好的性能,并为硬件设计提供了新的思路。