跳转至

2025 年 10 月

24 岁,站在人生的十字路口

2025 年 10 月 9 日,我按下发送键,将辞职信发给了领导。那一刻,我在人生的十字路口转了个弯。

一年多前刚毕业的我,大概想不到自己会在一年后选择离开公司,甚至离开陪伴了我数年的量化行业。从 2020 年接触量化开始,到实习、全职工作至今,我曾经期待过自己会在这条路上一直走下去。

改变并不是某个瞬间的决定,而是一个缓慢的积累过程。一些念头在心中生长得很隐秘,最初只是微弱的疑问,后来逐渐变成了无法忽视的声音。我想在 24 岁的十字路口,用这篇博客记录下这场重要的“改变”——记录我走过的路,也记录路上遇到的那些珍贵的人和事。

为什么注意力机制中要除以 \(\sqrt{d_k}\) :从方差到梯度的推导

\[ Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

在 Transformer 的注意力机制中,计算点积注意力 \(QK^T\) 之后,需要除以一个 \(\sqrt{d_k}\) 进行缩放。这一操作通常被解释为“为了数值稳定性”。这里的“稳定”究竟指的是什么?如果不除以 \(\sqrt{d_k}\) 就不稳定了么?为什么不除以 \(d_k\) 或其他数值呢?

本文分析了点积的方差如何随维度增长而增大,并进一步推导 \(\text{softmax}\) 变换得到的行向量的雅可比矩阵,展示当输入数值过大时梯度如何逐渐趋近于零。通过这一过程,我们将会理解,除以 \(\sqrt{d_k}\) 并不是随意的设置,而是确保注意力机制在高维空间中仍能保持可训练性的必要条件。