arxiv上的电子书 大语言模型基础...
- 蚁工厂
- 2025-01-21 13:57:04
arxiv上的电子书 大语言模型基础《Foundations of Large Language Models》
arxiv.org/pdf/2501.09223
作者东北大学的肖桐教授和@朱靖波-NiuTrans 教授
“大型语言模型起源于自然语言处理,但毫无疑问,它们已成为近年来人工智能领域最具革命性的技术进步之一。大型语言模型带来的一个重要见解是,可以通过大规模语言建模任务获取世界和语言的知识,并且通过这种方式,我们可以创建一个处理各种问题的通用模型。这一发现深刻地影响了自然语言处理和许多相关学科的研究方法。我们已经从使用大量标记数据从头训练专用系统,转变为使用大规模预训练来获得基础模型,然后进行微调、对齐和提示的新范式。
本书旨在概述大型语言模型的基本概念并介绍相关技术。正如标题所示,本书更侧重于大型语言模型的基础方面,而不是全面覆盖所有前沿方法。本书由四章组成:
• 第 1 章介绍预训练的基础知识。这是大型语言模型的基础,这里将讨论常见的预训练方法和模型架构。
• 第 2 章介绍生成模型,这是我们今天通常所指的大型语言模型。在介绍了构建这些模型的基本过程之后,我们还将探讨如何扩大模型训练规模和处理长文本。
• 第 3 章介绍大型语言模型的提示方法。我们将讨论各种提示策略,以及更高级的方法,如思维链推理和自动提示设计。
• 第 4 章介绍大型语言模型的对齐方法。本章重点介绍基于人类反馈的指令微调和对齐。
如果读者具备一些机器学习和自然语言处理的背景知识,以及对 Transformer 等神经网络有一定的了解,阅读本书将会非常容易。然而,即使没有这些先验知识,也完全没有问题,因为我们已使每章的内容尽可能地自成体系,确保读者不会负担过多的阅读困难。”
AI创造营
arxiv.org/pdf/2501.09223
作者东北大学的肖桐教授和@朱靖波-NiuTrans 教授
“大型语言模型起源于自然语言处理,但毫无疑问,它们已成为近年来人工智能领域最具革命性的技术进步之一。大型语言模型带来的一个重要见解是,可以通过大规模语言建模任务获取世界和语言的知识,并且通过这种方式,我们可以创建一个处理各种问题的通用模型。这一发现深刻地影响了自然语言处理和许多相关学科的研究方法。我们已经从使用大量标记数据从头训练专用系统,转变为使用大规模预训练来获得基础模型,然后进行微调、对齐和提示的新范式。
本书旨在概述大型语言模型的基本概念并介绍相关技术。正如标题所示,本书更侧重于大型语言模型的基础方面,而不是全面覆盖所有前沿方法。本书由四章组成:
• 第 1 章介绍预训练的基础知识。这是大型语言模型的基础,这里将讨论常见的预训练方法和模型架构。
• 第 2 章介绍生成模型,这是我们今天通常所指的大型语言模型。在介绍了构建这些模型的基本过程之后,我们还将探讨如何扩大模型训练规模和处理长文本。
• 第 3 章介绍大型语言模型的提示方法。我们将讨论各种提示策略,以及更高级的方法,如思维链推理和自动提示设计。
• 第 4 章介绍大型语言模型的对齐方法。本章重点介绍基于人类反馈的指令微调和对齐。
如果读者具备一些机器学习和自然语言处理的背景知识,以及对 Transformer 等神经网络有一定的了解,阅读本书将会非常容易。然而,即使没有这些先验知识,也完全没有问题,因为我们已使每章的内容尽可能地自成体系,确保读者不会负担过多的阅读困难。”
AI创造营