【LLM 对齐系列】(五):Actor-Critic 架构与优势函数
在上一篇文章中,我们介绍了 REINFORCE 算法——策略梯度定理的最简实现。REINFORCE 使用蒙特卡洛回报 \(G_t\) 作为学习信号,因此通常需要先采样完整轨迹,才能在时刻 \(t\) 得到对应的回报估计,这会带来较高的采样成本和较大的方差。
针对 REINFORCE 需要完整轨迹才能得到回报信号、从而带来信号延迟和高方差的问题,Actor-Critic 的核心改进是引入 Critic(价值函数近似器),用模型去估计 \(V_\pi(s)\) 或 \(Q_\pi(s,a)\),并结合一步回报对价值进行递推估计,从而提供更及时的学习信号,而不必总是等到整条轨迹结束。进一步地,为了降低策略梯度方差,可以在更新中引入基线(Baseline);当使用价值函数 \(V(s)\) 作为基线并以优势函数进行更新时,就得到 Advantage Actor-Critic(A2C)。
本文作为 LLM 对齐系列的第五篇,将介绍价值函数、优势函数以及 Actor-Critic 架构的工作原理。这些概念是对 REINFORCE 的直接改进,更是理解 TRPO、PPO 等高级算法的必要基础。


