电子表格实现nanoGPT架构 直观展示Transformer内部机制
这个项目将nanoGPT的完整推理流程实现在电子表格中,包括嵌入、层归一化和自注意力等Transformer核心组件。基于Andrej Karpathy的NanoGPT结构,该电子表格模型包含约85000个参数。通过直观展示Transformer的内部机制和数据流,并支持交互式操作,该项目为深入理解GPT工作原理提供了新颖的可视化方法。用户可以通过探索这个电子表格来更好地掌握Transformer架构的细节。
装在电子表格中的nanoGPT管道
这是我为了帮助自己理解GPT工作原理而做的一个项目。 玩起来非常有趣,尤其是当你试图弄清楚变形金刚内部究竟发生了什么。 这帮助我可视化整个结构和数据流。 内部所有的机制、计算和矩阵都是完全交互式和可配置的。
在阅读关于LLM的资料时,我意识到变形金刚的内部机制基本上是一系列按特定顺序连接的矩阵计算。 我开始想知道整个过程是否可以用电子表格来表示,因为所有的计算都相当简单。 我是一个视觉思考者,我想不出更好的方法来做这件事。 然后经过一些尝试和错误,我把nanoGPT架构的完整推理管道写进了一个电子表格。 忘掉Python吧,事实证明<mark>电子表格就是你所需要的</mark>。
这是电子表格的完整视图
放大变形金刚的核心--自注意力
它包含了所有的变形金刚组件,包括:
它基于Andrej Karpathy的NanoGPT结构,包含大约85000个参数。 这显然是一个非常小的规模,但它既复杂到足以让我理解它是如何工作的,又不至于大到让我的电脑崩溃。 与chatgpt相比,这个项目是一个基于字符的预测系统,这意味着每个token都是一个字符,为了降低复杂性,只对字母A/B/C进行标记化。