现在大部分宣称复刻Open...

歸藏的AI工具箱
2024-10-15 03:53:17

现在大部分宣称复刻Open AI o1的项目基本都是基于提示工程和模型微调，没有一个是基于强化学习的。ai

Entropy-based sampling 这个项目看起来更有价值一些，虽然我也看不用太懂。

主要逻辑是基于熵的采样方法，用于改善大型语言模型（LLMs）的文本生成过程。

通过控制熵和方差熵来避免分布退化，提高生成结果的多样性和质量。

框架中，根据当前熵和方差熵的值，采取不同的策略，如贪心解码、分支、回溯或引入推理链（Chain of Thought, CoT）。

详细介绍：notes.haroldbenoit.com/ml/llms/inference/sampling/entropy-based-sampling