从零开始构建Transformer

这是一个基于Transformer的**大型语言模型(LLM)**训练演示，只有大约240行代码。

受nanoGPT的启发，我编写了这个演示来展示如何使用PyTorch从头开始训练LLM。代码非常简单易懂。对于初学者来说，这是学习如何训练LLM的良好起点。

该演示在450Kb的示例教科书数据集上进行训练，模型大小约为51M。我在单个i7 CPU上进行训练，训练时间约为20分钟，结果产生了约130万个参数。

开始使用

安装依赖

pip install numpy requests torch tiktoken

运行model.py

首次运行时，程序将下载数据集并保存到data文件夹。然后模型将开始在数据集上进行训练。训练和验证的损失将打印在控制台屏幕上，类似于：

步骤: 0 训练损失: 11.68 验证损失: 11.681
步骤: 20 训练损失: 10.322 验证损失: 10.287
步骤: 40 训练损失: 8.689 验证损失: 8.783
步骤: 60 训练损失: 7.198 验证损失: 7.617
步骤: 80 训练损失: 6.795 验证损失: 7.353
步骤: 100 训练损失: 6.598 验证损失: 6.789
...

随着训练的进行，训练损失将会降低。经过5000次迭代后，训练将停止，损失降低到约2.807。模型将以model-ckpt.pt的名称保存。

然后，我们刚刚训练的模型将生成一个示例文本并显示在控制台屏幕上，类似于：

销售人员识别其他成本节约与下一个受众的互动，并与他们建立互动关系。培养真正的好奇心，鼓励有说服力的知识，专注于客户的优势并做出回应，作为一个友好且彻底的权威。
鼓励与客户进行开放的沟通方式，了解他们在客户个人寻找对话中的价值。2. 解决协调关切BIG：给予和举止是成功销售互动的另一个重要方面。通过分享案例研究，明确解决任何这种妥协，pis

看起来相当不错！

随意更改model.py文件顶部的一些超参数，看看它如何影响训练过程。

逐步Jupyter笔记本

我还提供了一个逐步的Jupyter笔记本step-by-step.ipynb，以帮助您理解架构逻辑。要运行它，您还需要安装：

pip install matplotlib pandas

这个笔记本打印出每个步骤的中间结果，遵循原始论文中的Transformer架构，但只有解码器部分（因为GPT只使用解码器）。因此，您可以看到模型是如何在每个单独步骤中进行训练的。例如：

[4,16]矩阵的输入嵌入看起来像这样：

      0     1      2      3     4      5      6      7      8      9      10     11     12     13     14     15
0    627  1383  88861    279  1989    315  25607  16940  65931    323  32097     11    584  26458  13520    449
1  15749   311   9615   3619   872   6444      6   3966     11  10742     11    323  32097     13   3296  22815
2  13189   315   1701   5557   304   6763    374  88861   7528  10758   7526     13   4314   7526   2997   2613
3    323  6376   2867  26470  1603  16661    264  49148    627     18     13  81745  48023  75311   7246  66044