深度学习¶

2025年1月19日
PyTorch, 深度学习
阅读时间 1 分钟

Layer Normalization

本文用一个简单的数值例子，说明了 LayerNorm 的作用。

\[ y = \frac{x - \mathrm{E}[x]}{ \sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta \]

2024年2月23日
深度学习, PyTorch, Python
阅读时间 2 分钟

将微调后的模型发布至 Hugging Face

发布微调后的 BERT 模型到 Hugging Face 模型库是一个很好的方式，可以让社区成员共享和使用你的工作。本文介绍了如何准备和发布你的模型到 Hugging Face。

2024年2月22日
深度学习, PyTorch, Python
阅读时间 1 分钟

机器生成文本检测器

简介

本应用使用 BERT 模型和 SHAP 解释性分析技术，旨在帮助用户判断一个文本是否可能由机器生成。应用允许用户输入文本，然后使用预先训练好的 BERT 模型进行分析，最后通过 SHAP 提供文本的可解释性分析，帮助理解模型的预测结果。

在线体验地址：https://machine-generated-text-detection.streamlit.app

screenshot

2024年1月2日
PyTorch, 深度学习
阅读时间 1 分钟

理解 PyTorch 中的 `CrossEntropyLoss`

在机器学习中，特别是处理分类问题时，损失函数是衡量模型预测与实际标签差异的关键。在 PyTorch 中，CrossEntropyLoss是一个常用的损失函数，用于分类问题。它首先通过 Softmax 函数计算对应类别的概率值，然后计算每个样本的负对数似然损失，最后对所有样本的损失值求平均。

本文将通过一个简单的例子来手动计算CrossEntropyLoss，并展示如何使用 PyTorch 实现这一过程。

2023年8月31日
深度学习
阅读时间 1 分钟

从 Hugging Face 下载模型文件

本文记录了如何用代码从 Hugging Face 下载模型文件。

2023年7月17日
深度学习
阅读时间 2 分钟

基于深度学习的中文文本错误识别与纠正模型总结

中文写作是许多人工作和生活的重要内容之一，在写作中使用准确的用词和清晰的句法，能够帮助文本的阅读者快速且正确地理解作者所表达的意思。如果一段中文文本存在大量错字（例如由于书写错误导致出现不存在的汉字）、别字（每个汉字都存在，但由于字音、字形相似但意义不同而混淆了搭配）和语法错误，这将使读者感到十分困惑，影响阅读体验。

在错别字层面，现代数字化的文本大多由用户通过输入法进行编辑，输入法内置词典的正确性使得文本不易形成错字，但由于输入时选中文字的疏忽、对词语搭配具有错误的认知等原因，别字的问题依然经常出现。在正式的书面写作中，使用未经组织的、口语化的文本也经常导致语法错误的出现。在语法层面，由于用户在文本输入法，语音输入法使用上的随意性，后续又缺少审核，极易产生语法错误内容。近年来随着自媒体的热潮，人人都是信息的生产者，互联网上语法错误的内容暴增，但语法不通顺的文本极大影响了用户体验。

为实现中文文本纠错、提高汉语使用的正确性，同时减少人工校验的成本，本文初步探讨了基于深度学习的中文文本错误识别与纠正模型，包括它的核心目标、从输入数据到输出数据的流程、训练模型需要用到的数据来源、使用的前沿模型以及现有论文的测试效果等。

2023年7月7日
深度学习, PyTorch
阅读时间 4 分钟

深入理解 GRU 及其 PyTorch 实现

本文介绍了 GRU 的网络结构，梳理了 GRU 的前向传播关系，即 \(t-1\) 时间步的隐状态 \(h_{t-1}\)、\(t\) 时间步的输入 \(x_t\)、更新门 \(z_t\)、重置门 \(r_t\) 和 \(t\) 时间步的隐状态输出 \(h_t\) 之间是如何转换的。为了更好地理解 GRU，本文给出了各个张量的维数大小关系的数值示例。最后，本文提供了使用 PyTorch 实现一个 2 层 GRU 模型的代码。

Gated Recurrent Unit

2023年6月30日
深度学习, 数据可视化
阅读时间 2 分钟

`matplotlib` 动态绘图——神经网络训练过程可视化

本文使用 matplotlib 实现动态绘图，可以用于查看神经网络训练过程的损失值和评估指标的变化情况。

plot-animation

本文部分代码参考了《动手学深度学习》的 utils.py 中的函数。

2023年6月4日
深度学习
阅读时间 1 分钟

深度学习 Cheat Sheet

本文整理了深度学习期末考试 Cheat Sheet。内容包括：

神经网络基础（激活函数、梯度下降优化方法、参数初始化）
前馈神经网络（Dense NN、反向传播算法）
卷积神经网络（CNN）
循环神经网络（RNN、LSTM、GRU、随时间的反向传播）
生成模型（自编码器、变分自编码器、GAN、WGAN）
Transformer（注意力机制、多头注意力、位置编码）
强化学习基础：多臂老虎机（遗憾值、Eoplore Then Commit、Upper Confidence Bound）
强化学习进阶：马尔可夫决策过程、动作价值函数、贝尔曼方程、计算状态价值、Q-Learning

PDF 版 Cheat Sheet 在这里。

2023年5月29日
深度学习
阅读时间 33 分钟

基于强化学习 DQN 算法的登月着陆机器人

本文基于强化学习 DQN 算法，训练了一个登月着陆机器人。它能够采取向左右移动、向下喷射减缓速度等动作，在有干扰的环境下准确地降落在月球表面的指定区域。

2023年5月1日
深度学习
阅读时间 5 分钟

GPT 论文精读笔记

Generative Pre-trained Transformer（GPT）系列是由 OpenAI 提出的非常强大的预训练语言模型，这一系列的模型可以在非常复杂的 NLP 任务中取得非常惊艳的效果，例如文章生成，代码生成，机器翻译，问答等，而完成这些任务甚至并不需要有监督学习进行模型微调。

本文梳理了 GPT 系列文章中介绍的的关键技术，包括：

GPT-1 的解码器、微调、输入形式；
GPT-2 的 Zero-shot 和 Prompt；
GPT-3 的 Few-shot；
Instruct GPT 如何通过基于人类反馈的强化学习生成有帮助的和安全的文本。

2023年4月30日
深度学习
阅读时间 3 分钟

Transformer 中的 Positional Encoding Layer

在 Transformer 的模型结构中，Positional Encoding Layer 是将输入文本进行位置编码，使得模型知道每个词在文本中的绝对位置和相对位置。有时，当一个词的位置发生变化后，语义会发生巨大的变化，因此 Positional Encoding Layer 是至关重要的。

Transformer 原始论文中只给出了关键的编码公式，而我第一次看到这个公式时觉得晦涩难懂。深度学习课程的老师在课上讲解了之后，我还是不太明白。

\[ \begin{aligned} P E(p o s, 2 i+1)&=\cos \left(\frac{p o s}{10000^{2 i / d m o d e l}}\right) \\ P E(p o s, 2 i)&=\sin \left(\frac{p o s}{10000^{2 i / d m o d e l}}\right) \end{aligned} \]

终于，我找到了写得非常好的资料。作者从最简单的绝对位置编码（也就是将第一个位置编码为 1，第二个位置编码为 2，以此类推。这当然是最容易想到的方法。）开始介绍，一步一步引导我们为什么要用上面的公式。

2023年4月18日
深度学习, PyTorch
阅读时间 25 分钟

基于 Bert 的中文问答机器人

最终训练的模型已经部署到 Hugging Face，请尝试输入一些简单的中文段落和相关问题

本文基于 Bert 的中文分词和问答的预训练模型，利用 10, 000 余条中文问答数据进行微调，构建了能够理解中文段落并回答相关问题的问答机器人。用自定义的数据进行测试，模型的效果基本能达到“正确回答小学三年级以下的阅读理解题”的水平。

predict-james

这是我第一次完整地实现一个 NLP 项目。在这个过程中，我学习了如何使用预训练模型、中文分词、准备数据、文本编码与解码、设计问答机器的损失与优化目标、导出训练模型等技术，对问答领域的 NLP 有了更透彻的理解。

理论部分可参考李沐老师的 Transformer 论文逐段精读【论文精读】和 BERT 论文逐段精读【论文精读】。当然，如果想要理解得更透彻一些，还是应该动手写代码，看看每一步到底在做什么，到真正实现出来看到模型结果的那一刻，是非常有成就感的。

不同 GPU 平台的训练效率对比

为对比不同平台上的 GPU 的训练效率的差异，我在 Kaggle、Google Colab、趋动云和本地的 Macbook Pro M1 Pro 四台机器上分别进行了训练。对于单个 Epoch：

付费使用的趋动云使用 2 个 GPU 并行训练，效率最高，单个 Epoch 共耗时 4 分 40 秒；
免费使用的 Kaggle 耗时 9 分钟，Google Colab 耗时 17 分钟；
在 Macbook Pro M1 Pro 上运行效率最低，即使使用了 GPU，单个 Epoch 仍预计耗时 3 小时。

2023年4月10日
深度学习, PyTorch
阅读时间 2 分钟

手动计算简单的反向传播算法

反向传播算法是深度学习进行参数优化的基础。本文手动计算了多层感知机中损失函数对权重、净输入值的梯度，并与 PyTorch 的计算结果进行了验证。

反向传播算法的本质是矩阵微分和链式法则，这两个知识都不难理解，但刚接触反向传播算法时总容易被一些陌生的符号弄糊涂。理解反向传播算法的理论推导，最重要的是弄清楚各个向量、矩阵的维度，以及熟练它们之间的前向传播关系。最后多加练习，就能对反向传播算法的理解更加透彻。

理论推导

2023年4月9日
深度学习
阅读时间 3 分钟

神经网络中的激活函数

激活函数在神经元中是非常重要的。为了增强网络的表示能力和学习能力，激活函数需要具备以下几点性质：

连续并可导（允许少数点上不可导）的非线性函数（若激活函数仍是线性函数，那么再多层的神经网络都只能拟合一个线性函数）。可导的激活函数可以直接利用数值优化的方法来学习网络参数。
激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。
激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。

本文总结了神经网络中常见的激活函数。

activation_functions

2023年3月28日
深度学习, Python
阅读时间 25 分钟

从零开始搭建卷积神经网络组件

本文是深度学习课程的一次练习，使用 Numpy 实现了 CNN 中卷积层、池化层的前向传播与反向传播。

以下是一个典型卷积层的计算过程：

输入张量：\(X \in \mathbb{R}^{M \times N \times D}\)。例：\(D=1\) 时，输入的是 \(M \times N\) 维的灰度图像； \(D=3\) 时，输入的是 \(M \times N\) 维的彩色图像。
卷积核：\(W \in \mathbb{R}^{U \times V \times D \times P}\)，其中每个切片矩阵 \(W^{d, p} \in \mathbb{R}^{U \times V}\), \(1 \leq d \leq D, 1 \leq p \leq P\)。
输出张量： \(Y \times \mathbb{R}^{M^{\prime} \times N^{\prime} \times P}\)。