今日推介(第1597期):通过移除全连... 爱可可-爱生活 2024-11-24 20:48:48 今日推介(第1597期):通过移除全连接层来最小化Transformer计算、BFloat16在长上下文训练中有损RoPE相对位置编码、大型语言模型是否记住了Bug基准、大语言模型个性化研究、极端自适应稀疏训练 公·众·号:爱可可爱生活 机器学习人工智能论文