极大似然估计与最小均方误差的等价性¶
在使用最小二乘法估计线性模型的参数时,我们通常会将目标函数写成最小化均方误差的形式: $$ \hat\beta = \min_{\beta} \sum_{i=1}^n {\color{red}{(y_i - x_i^T \beta)^2}} $$
为什么我们要用 均方误差 作为损失函数?而不是绝对值误差、绝对值的三次方误差等其他形式?本文推导了极大似然估计与最小均方误差的等价性,说明最小均方误差是一种合理的做法。
我们知道,估计误差与参数 \(\beta\) 的关系为:
\[
e_i = y_i - x_i^T \beta
\]
假设估计误差服从均值为 \(0\) 且方差为 \(\sigma ^2\) 的正态分布 ,那么在参数 \(\beta\) 已知的情况下,单个样本的概率密度函数为:
\[
\begin{align*}
f(y_i| x_i,\beta)&=
f(e_i| x_i,\beta)\\
&= \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{e_i^2}{2\sigma^2}\right) \\
&= \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{ {\color{blue}{(y_i - x_i^T \beta)^2}}}{2\sigma^2}\right]
\end{align*}
\]
所有样本的似然函数为:
\[
L(\beta) = \prod_{i=1}^n f(y_i| x_i,\beta) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{ \left(y_i - x_i^T \beta \right) ^2}{2\sigma^2}\right]
\]
所有样本的对数似然函数为:
\[
\ell(\beta) = \log L(\beta) = -\frac{n}{2}\log(2\pi) -\frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n \left(y_i - x_i^T \beta \right)^2
\]
最大化似然函数,就等价于最小化对数似然函数的相反数:
\[
Q(\beta) = -\ell(\beta) = \frac{n}{2}\log(2\pi) + \frac{n}{2}\log(\sigma^2) + \frac{1}{2\sigma^2} \sum_{i=1}^n {\color{blue}{(y_i - x_i^T \beta)^2}}
\]
上式中只有 \(\beta\) 是可变量,因此本质上就是最小化上式的最后一个求和项,即最小化均方误差:
\[
\hat\beta = \min_{\beta} \sum_{i=1}^n {\color{red}{(y_i - x_i^T \beta)^2}}
\]