github上一份关于如何有效提示后训...

蚁工厂
2024-11-14 06:00:48

github上一份关于如何有效提示后训练大型语言模型（LLMs）的指南。
github.com/varungodbole/prompt-tuning-playbook
“本文件适合任何希望提升后训练大语言模型（LLMs）提示词编写技巧的用户。我们假定读者对某种类型的LLM（例如Gemini）有一定的基础了解，但不要求具备严格的技术理解。

文档的前半部分提供了关于后训练和提示词的思维模型；后半部分则提供更具体的提示词调试方法和高层次操作步骤。考虑到LLM的发展速度，我们预计后半部分内容可能会比前半部分更快过时。”

什么是后训练？举例来说，考虑“阿拉贡最终成为刚铎之王”这一陈述。这句话是否真实？这取决于许多因素。若谈论的是《指环王》背景，那么可以认为这是一个“事实”。但若是在漫威电影宇宙背景下，这便不属实。如果是在非虚构的、与现实兼容的电影宇宙背景中，这一陈述也不属实，因为阿拉贡和刚铎是地球上找不到的虚构人物和地点。

这个问题——即“某事物是否真实”的问题——并不是LLMs独有的。它涉及到哲学和语言学中的长期理论和争议。实际上，在提示词设计方面，它可以被简化为：某个陈述是否真实取决于它所处的“电影宇宙”。

后训练为LLM提供了有关其“默认”宇宙的指引，不再单纯依靠提示词去推断。这样可以使LLM在面临某些不确定性时更一致。例如，LLMs需要被告知它们默认情况下应遵循指令。通过后训练，可以强制模型遵循某些默认假设，比如使其行为更符合社会规范，从而使模型在特定应用场景中成为更安全或更有生产力的工具。