LongWriter: Unleashing...

  • AMiner学术头条
  • 2024-08-17 09:31:24
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs网页链接
本文介绍了LongWriter,一种能够实现超过10000字生成的大型语言模型(LLM)。尽管现有的长上下文大语言模型能够处理多达100000个标记的输入,但在生成超过2000字的内容时仍然存在困难。通过控制实验,我们发现模型的有效生成长度内在地受限于在监督微调(SFT)过程中所见到的样本。换句话说,其输出限制是由于现有SFT数据集中长输出示例的稀缺造成的。为了解决这一问题,我们引入了AgentWrite,一个基于代理的流水线,将超长生成任务分解为子任务,使现成的LLM能够生成超过20000字且连贯的输出。利用AgentWrite,我们构建了LongWriter-6k数据集,其中包含6000个SFT数据,输出长度范围从2000字到32000字。通过将此数据集纳入模型训练,我们成功将现有模型的输出长度扩展到超过10000字,同时保持输出质量。我们还开发了LongBench-Write,一个全面评估超长生成能力的基准。我们的9B参数模型,通过DPO进一步改进,在这一基准上实现了最先进的表现,甚至超过了更大规模的有专利权模型。总的来说,我们的工作表明,现有的长上下文LLM已经具备了更大的输出窗口的潜力——你所需要的就是在模型对齐过程中具有扩展输出的数据来解锁这一功能。我们的代码和模型可访问:网页链接
论文写作博士大模型人工智能
LongWriter: Unleashing...