LLM¶

2023 年 5 月 29 日
深度学习, LLM
阅读时间 33 分钟

基于强化学习 DQN 算法的登月着陆机器人

本文基于强化学习 DQN 算法，训练了一个登月着陆机器人。它能够采取向左右移动、向下喷射减缓速度等动作，在有干扰的环境下准确地降落在月球表面的指定区域。

2023 年 5 月 1 日
深度学习, LLM
阅读时间 5 分钟

GPT 论文精读笔记

Generative Pre-trained Transformer（GPT）系列是由 OpenAI 提出的非常强大的预训练语言模型，这一系列的模型可以在非常复杂的 NLP 任务中取得非常惊艳的效果，例如文章生成，代码生成，机器翻译，问答等，而完成这些任务甚至并不需要有监督学习进行模型微调。

本文梳理了 GPT 系列文章中介绍的的关键技术，包括：

GPT-1 的解码器、微调、输入形式；
GPT-2 的 Zero-shot 和 Prompt；
GPT-3 的 Few-shot；
Instruct GPT 如何通过基于人类反馈的强化学习生成有帮助的和安全的文本。

2023 年 4 月 30 日
深度学习, LLM
阅读时间 3 分钟

Transformer 中的 Positional Encoding Layer

在 Transformer 的模型结构中，Positional Encoding Layer 是将输入文本进行位置编码，使得模型知道每个词在文本中的绝对位置和相对位置。有时，当一个词的位置发生变化后，语义会发生巨大的变化，因此 Positional Encoding Layer 是至关重要的。

Transformer 原始论文中只给出了关键的编码公式，而我第一次看到这个公式时觉得晦涩难懂。深度学习课程的老师在课上讲解了之后，我还是不太明白。

\[ \begin{aligned} P E(p o s, 2 i+1)&=\cos \left(\frac{p o s}{10000^{2 i / d m o d e l}}\right) \\ P E(p o s, 2 i)&=\sin \left(\frac{p o s}{10000^{2 i / d m o d e l}}\right) \end{aligned} \]

终于，我找到了写得非常好的资料。作者从最简单的绝对位置编码（也就是将第一个位置编码为 1，第二个位置编码为 2，以此类推。这当然是最容易想到的方法。）开始介绍，一步一步引导我们为什么要用上面的公式。

2023 年 4 月 18 日
深度学习, PyTorch, LLM
阅读时间 25 分钟

基于 Bert 的中文问答机器人

最终训练的模型已经部署到 Hugging Face，请尝试输入一些简单的中文段落和相关问题

本文基于 Bert 的中文分词和问答的预训练模型，利用 10, 000 余条中文问答数据进行微调，构建了能够理解中文段落并回答相关问题的问答机器人。用自定义的数据进行测试，模型的效果基本能达到“正确回答小学三年级以下的阅读理解题”的水平。

predict-james

这是我第一次完整地实现一个 NLP 项目。在这个过程中，我学习了如何使用预训练模型、中文分词、准备数据、文本编码与解码、设计问答机器的损失与优化目标、导出训练模型等技术，对问答领域的 NLP 有了更透彻的理解。

理论部分可参考李沐老师的 Transformer 论文逐段精读【论文精读】和 BERT 论文逐段精读【论文精读】。当然，如果想要理解得更透彻一些，还是应该动手写代码，看看每一步到底在做什么，到真正实现出来看到模型结果的那一刻，是非常有成就感的。

不同 GPU 平台的训练效率对比

为对比不同平台上的 GPU 的训练效率的差异，我在 Kaggle、Google Colab、趋动云和本地的 Macbook Pro M1 Pro 四台机器上分别进行了训练。对于单个 Epoch：

付费使用的趋动云使用 2 个 GPU 并行训练，效率最高，单个 Epoch 共耗时 4 分 40 秒；
免费使用的 Kaggle 耗时 9 分钟，Google Colab 耗时 17 分钟；
在 Macbook Pro M1 Pro 上运行效率最低，即使使用了 GPU，单个 Epoch 仍预计耗时 3 小时。