【LLM 对齐系列】（一）：大模型开发的三个阶段：预训练、监督微调和强化学习¶

大语言模型（LLM）的开发通常经历三个主要阶段：预训练（Pre-training）、监督微调（Supervised Fine-Tuning，SFT）和强化学习（Reinforcement Learning）。这三个阶段各自解决不同的问题，层层递进，最终使模型能够更好地理解和执行人类指令。

本文作为 LLM 对齐系列的第一篇，介绍了这三个阶段的作用和必要性，为后续深入探讨 LLM 对齐技术及其数学原理打下基础。

1763401216427

1. 预训练阶段¶

预训练阶段的核心目标是将大规模语料库中的知识压缩到模型参数中。这个过程主要解决两个问题：如何利用大规模无标注语料进行有效训练，以及如何让模型捕捉语言的深层语义和计算机制。

预训练采用的是自监督学习方式，最常见的任务是预测下一个词（next token prediction）。模型通过学习预测文本序列中的下一个 token，逐渐理解语言的通用模式。在大模型时代之前，BERT、GPT-2 等模型就已经展现出了一定的语义理解能力，这些预训练模型在微调后能够很好地完成许多下游任务。在大模型时代，像 GPT 系列、Llama 这样的大模型在大规模数据上训练后，展现出了极强的语义建模能力，不仅能进行语义理解和文本生成，还具备了一定的零样本推断能力。

大模型在预训练阶段可以获得强大的语义理解能力并储存大量知识，这些能力和知识为后续的监督微调提供了坚实的基础，使得模型能够通过较少的标注数据就能产生符合人类语言习惯的输出。

2. 监督微调阶段¶

尽管预训练模型具备了语言理解和生成能力，但它并不知道如何遵循人类的指令，生成的内容也可能不符合人类的交互习惯。监督微调阶段就是为了解决这个问题，让模型不仅仅会“续写”，也能够像人一样自然地“问答”。

在这个阶段，我们需要收集高质量的“指令 - 回答”数据，然后用这些数据对预训练阶段得到的模型进行微调。这些数据的质量要求远高于预训练阶段。这些“指令 - 回答”数据通常需要大量的人工标注和筛选，获取成本相对较高，因此数量比预训练阶段的无标注语料少。通过学习这些高质量对话数据，模型可以更好地理解人类期望的交互方式（问答）、内容和风格，从而输出更符合人类预期的回答。

通过监督微调，模型已经初步学会了如何听懂指令、如何规范地回答问题，能够规范输出格式与风格，且有一定的安全性等价值观偏好。

3. 强化学习阶段¶

虽然 SFT 让模型学会了“怎么说话”，但在“说得对”、“说得好”以及“什么不能说”等人类偏好的维度上，它依然存在局限性。为了进一步让模型对齐人类的偏好，我们需要引入基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF），主要基于以下几个核心原因：

解决“高质量示范数据”的稀缺性。写出满分答案很难，但判断答案的优劣很容易。SFT 依赖于人类专家撰写完美的“标准答案”，这既昂贵又有天花板（模型很难超越写答案的人）。而在强化学习阶段，可以通过采样来构造出几乎无限的样本，人类只需要对模型的回答进行质量排序。这允许模型利用人类的判别能力来优化自身，探索出甚至超越人类示范的更优解。
强化负面约束与安全性，学会“什么不能做”。在 SFT 阶段，我们只提供了正向示范，因此很难教会模型“不要做什么”，例如不要产生幻觉、不要输出有害信息等。强化学习引入了惩罚机制，让模型在错误行为受到负反馈后，深刻记住安全边界。这是实现模型安全性的有效手段。

强化学习阶段与监督微调的目标是一致的——让模型更好地对齐人类偏好。但两者的实现机制有本质区别。

步骤一：训练奖励模型（Reward Modeling）——“训练裁判”¶

既然人类不可能盯着模型生成的每一句话进行打分（效率太低），我们就需要训练一个 AI 模型来代替人类进行评分。我们收集人类对不同回答的排序数据，训练这个“奖励模型”去模仿人类的偏好。训练完成后，这个奖励模型就变成了一个不知疲倦的“裁判”，它能对大模型生成的任何回答给出一个分数（Reward）。

步骤二：策略优化（Policy Optimization）——“根据反馈自我修正”¶

有了“裁判”（奖励模型）之后，就可以让 SFT 模型（现在的“学生”）进入“实战演练”阶段。这是一个循环迭代的过程：

生成与打分： 模型针对某个问题生成回答，奖励模型根据人类偏好给这个回答打分（Reward）。
参数更新： 模型根据分数调整自身的参数。如果得分高，就强化生成这类回答的倾向；如果得分低，就降低这种倾向。本质上，这是在数学层面最大化预期奖励。
施加约束： 为了防止模型为了博取高分而“走捷径”（即 Reward Hacking，例如输出虽然得分高但不通顺的奇怪语句），或者偏离了原有的语言能力，通常会在优化过程中加入约束项（如 KL 散度）。这个约束就像一根“风筝线”，确保模型在根据奖励飞得更高（变聪明）的同时，不会断线飞走（遗忘预训练中获得的通用语言能力）。

我们将在接下来的系列文章中详细介绍这些步骤的技术原理与发展。

总结¶

从整体来看，大模型开发在技术上可以分为预训练、监督微调和强化学习三个主要阶段。预训练主要是为了有效利用大规模无标注语料进行语言表达的学习，监督微调和强化学习则主要解决对齐人类偏好的问题。从流程上来说：预训练为监督微调提供冷启动，监督微调则为强化学习提供冷启动。

强化学习在大模型能力提升方面展现出了突破性的价值。以 OpenAI o1 系列和 DeepSeek-R1 为代表的推理模型表明，强化学习能够显著增强模型的复杂推理能力（数学、编程、科学推理等）和工具调用能力（函数调用、多步规划、环境交互）。与监督学习相比，强化学习无需大量专家标注的"完美答案"，而是通过人类的判别能力来指导优化，从而能够探索出超越人类示范的更优解。

正是由于强化学习在推动大模型进阶能力方面的核心作用，我们在后续将重点介绍强化学习的相关内容。在接下来的系列文章中，我们将介绍 REINFORCE、TRPO、PPO、GRPO 等强化学习算法的数学原理和直觉。值得一提的是，强化学习并不是对齐人类偏好的唯一方法。近年来还出现了直接偏好优化（Direct Preference Optimization，DPO）等方法，可以更直接地利用偏好数据进行优化，跳过复杂的强化学习训练过程。我们亦会在系列后期介绍这一方法。