
简洁实现Transformer模型的入门教程
该项目展示了如何用约240行代码实现Transformer模型,包含基于PyTorch的训练演示和详细的Jupyter Notebook。 使用450Kb样本数据集,在单CPU上20分钟内完成训练,帮助初学者理解大型语言模型的原理和实现过程。
这是一个基于Transformer的**大型语言模型(LLM)**训练演示,只有大约240行代码。
受nanoGPT的启发,我编写了这个演示来展示如何使用PyTorch从头开始训练LLM。 代码非常简单易懂。对于初学者来说,这是学习如何训练LLM的良好起点。
该演示在450Kb的示例教科书数据集上进行训练,模型大小约为51M。 我在单个i7 CPU上进行训练,训练时间约为20分钟,结果产生了约130万个参数。
pip install numpy requests torch tiktoken
首次运行时,程序将下载数据集并保存到data文件夹。
然后模型将开始在数据集上进行训练。训练和验证的损失将打印在控制台屏幕上,类似于:
步骤: 0 训练损失: 11.68 验证损失: 11.681
步骤: 20 训练损失: 10.322 验证损失: 10.287
步骤: 40 训练损失: 8.689 验证损失: 8.783
步骤: 60 训练损失: 7.198 验证损失: 7.617
步骤: 80 训练损失: 6.795 验证损失: 7.353
步骤: 100 训练损失: 6.598 验证损失: 6.789
...
随着训练的进行,训练损失将会降低。经过5000次迭代后,训练将停止,损失降低到约2.807。模型将以model-ckpt.pt的名称保存。
然后,我们刚刚训练的模型将生成一个示例文本并显示在控制台屏幕上,类似于:
销售人员识别其他成本节约与下一个受众的互动,并与他们建立互动关系。培养真正的好奇心,鼓励有说服力的知识,专注于客户的优势并做出回应,作为一个友好且彻底的权威。 鼓励与客户进行开放的沟通方式,了解他们在客户个人寻找对话中的价值。2. 解决协调关切BIG:给予和举止是成功销售互动的另一个重要方面。通过分享案例研究,明确解决任何这种妥协,pis
看起来相当不错!
随意更改model.py文件顶部的一些超参数,看看它如何影响训练过程。
我还提供了一个逐步的Jupyter笔记本step-by-step.ipynb,以帮助您理解架构逻辑。要运行它,您还需要安装:
pip install matplotlib pandas
这个笔记本打印出每个步骤的中间结果,遵循原始论文中的Transformer架构,但只有解码器部分(因为GPT只使用解码器)。因此,您可以看到模型是如何在每个单独步骤中进行训练的。例如:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 627 1383 88861 279 1989 315 25607 16940 65931 323 32097 11 584 26458 13520 449
1 15749 311 9615 3619 872 6444 6 3966 11 10742 11 323 32097 13 3296 22815
2 13189 315 1701 5557 304 6763 374 88861 7528 10758 7526 13 4314 7526 2997 2613
3 323 6376 2867 26470 1603 16661 264 49148 627 18 13 81745 48023 75311 7246 66044



在/GPT2目录下,我放置了一些示例代码,展示如何微调预训练的GPT2模型,以及如何从中进行推理。
如果您是LLM新手,我推荐您阅读我的博客文章Transformer架构:LLM从零到英雄,该文章分解了Transformer架构的概念。


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


阿里Qoder团队推出的桌面端AI智能体
QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧 全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号