github上一份关于如何有效提示后训...
- 蚁工厂
- 2024-11-14 06:00:48
github上一份关于如何有效提示后训练大型语言模型(LLMs)的指南。
github.com/varungodbole/prompt-tuning-playbook
“本文件适合任何希望提升后训练大语言模型(LLMs)提示词编写技巧的用户。我们假定读者对某种类型的LLM(例如Gemini)有一定的基础了解,但不要求具备严格的技术理解。
文档的前半部分提供了关于后训练和提示词的思维模型;后半部分则提供更具体的提示词调试方法和高层次操作步骤。考虑到LLM的发展速度,我们预计后半部分内容可能会比前半部分更快过时。”
什么是后训练? 举例来说,考虑“阿拉贡最终成为刚铎之王”这一陈述。这句话是否真实?这取决于许多因素。若谈论的是《指环王》背景,那么可以认为这是一个“事实”。但若是在漫威电影宇宙背景下,这便不属实。如果是在非虚构的、与现实兼容的电影宇宙背景中,这一陈述也不属实,因为阿拉贡和刚铎是地球上找不到的虚构人物和地点。
这个问题——即“某事物是否真实”的问题——并不是LLMs独有的。它涉及到哲学和语言学中的长期理论和争议。实际上,在提示词设计方面,它可以被简化为:某个陈述是否真实取决于它所处的“电影宇宙”。
后训练为LLM提供了有关其“默认”宇宙的指引,不再单纯依靠提示词去推断。这样可以使LLM在面临某些不确定性时更一致。例如,LLMs需要被告知它们默认情况下应遵循指令。通过后训练,可以强制模型遵循某些默认假设,比如使其行为更符合社会规范,从而使模型在特定应用场景中成为更安全或更有生产力的工具。
github.com/varungodbole/prompt-tuning-playbook
“本文件适合任何希望提升后训练大语言模型(LLMs)提示词编写技巧的用户。我们假定读者对某种类型的LLM(例如Gemini)有一定的基础了解,但不要求具备严格的技术理解。
文档的前半部分提供了关于后训练和提示词的思维模型;后半部分则提供更具体的提示词调试方法和高层次操作步骤。考虑到LLM的发展速度,我们预计后半部分内容可能会比前半部分更快过时。”
什么是后训练? 举例来说,考虑“阿拉贡最终成为刚铎之王”这一陈述。这句话是否真实?这取决于许多因素。若谈论的是《指环王》背景,那么可以认为这是一个“事实”。但若是在漫威电影宇宙背景下,这便不属实。如果是在非虚构的、与现实兼容的电影宇宙背景中,这一陈述也不属实,因为阿拉贡和刚铎是地球上找不到的虚构人物和地点。
这个问题——即“某事物是否真实”的问题——并不是LLMs独有的。它涉及到哲学和语言学中的长期理论和争议。实际上,在提示词设计方面,它可以被简化为:某个陈述是否真实取决于它所处的“电影宇宙”。
后训练为LLM提供了有关其“默认”宇宙的指引,不再单纯依靠提示词去推断。这样可以使LLM在面临某些不确定性时更一致。例如,LLMs需要被告知它们默认情况下应遵循指令。通过后训练,可以强制模型遵循某些默认假设,比如使其行为更符合社会规范,从而使模型在特定应用场景中成为更安全或更有生产力的工具。