seemore

<span>使用 Databricks 开发，充满❤️</span>

使用 Pytorch 从零开始构建视觉语言模型

更新：

介绍如何创建基于稀疏混合专家的视觉语言模型的博客：https://huggingface.co/blog/AviSoori1x/seemoe 你可以将其视为一个简化版的 Grok 1.5/GPT-4 Vision，从零开始，仅使用一个 PyTorch 文件实现。整合后的实现在 seeMoE.py 中。笔记本文件是 seeMoE_from_scratch.ipynb

-----------

详细介绍这个项目的博客：https://avisoori1x.github.io/2024/04/22/seemore-_Implement_a_Vision_Language_Model_from_Scratch.html

https://huggingface.co/blog/AviSoori1x/seemore-vision-language-model

在这个简单的视觉语言模型（VLM）实现中，有3个主要组成部分。

图像编码器，用于从图像中提取视觉特征。在这个案例中，我使用了从零开始实现的原始 CLIP 中的视觉 Transformer。这实际上是许多现代 VLM 中的常见选择。一个值得注意的例外是 Adept 的 Fuyu 系列模型，它直接将分块的图像传递给投影层。
视觉-语言投影器 - 图像嵌入的形状与解码器使用的文本嵌入不同。因此，我们需要"投影"，即改变图像编码器提取的图像特征的维度，以匹配文本嵌入空间中观察到的维度。这样，图像特征就变成了解码器的"视觉令牌"。这可以是单层或多层感知器（MLP）。我使用了 MLP，因为它值得展示。
仅解码器的语言模型。这是最终生成文本的组件。在我的实现中，我稍微偏离了你在 LLaVA 等模型中看到的做法，将投影模块整合到了解码器中。通常不会这样做，而是保持解码器的架构（通常是一个已经预训练的模型）不变。

缩放点积自注意力的实现借鉴了 Andrej Kapathy 的 makemore（https://github.com/karpathy/makemore）。此外，解码器是一个自回归的字符级语言模型，就像 makemore 一样。现在你明白'seemore'这个名字的由来了 :)

所有内容都是使用 PyTorch 从头开始编写的。这包括注意力机制（视觉编码器和语言解码器都有）、视觉 Transformer 的图像分块创建以及其他所有内容。希望这对任何浏览这个仓库和/或相关博客的人有所帮助。

这个实现主要参考的出版物：