Anole: 一个开放、自回归和原生的多模态模型，用于交错图像-文本生成

<img src="https://yellow-cdn.veclightyear.com/835a84d5/dfe5caa6-8dd7-469f-aa50-4b3f2234a5d3.png" alt="GAIR-Anole" style="width: 90%; min-width: 300px; display: block; margin: auto;"> 📊 <a href="https://github.com/GAIR-NLP/anole#-examples" target="_blank">示例</a>   |   🤗 <a href="https://huggingface.co/GAIR/Anole-7b-v0.1" target="_blank">Hugging Face</a>   |   📤 <a href="https://github.com/GAIR-NLP/anole#-get-started" target="_self">开始使用</a>   |   🌐 <a href="https://gair-nlp.github.io/anole" target="_blank">网站</a>   |   📄 <a href="http://arxiv.org/abs/2407.06135" target="_blank">预印本</a>   |   这是GAIR Anole项目，旨在构建和开源具有全面多模态理解和生成能力的大型多模态模型。

👋 概述

Anole是首个开源、自回归且原生训练的大型多模态模型，能够进行交错图像-文本生成（无需使用稳定扩散）。虽然它建立在Chameleon的优势之上，但Anole在生成连贯的交替文本和图像序列这一复杂任务上表现出色。通过使用精心策划的约6,000张图像数据集进行创新的微调过程，Anole以最少的额外训练实现了卓越的图像生成和理解能力。这种高效的方法，加上其开源性质，使Anole成为加速多模态AI研究和开发的催化剂。初步测试表明，Anole在遵循细微指令方面表现出色，能够生成高质量的图像和交错的文本-图像内容，与用户提示紧密一致。

Anole的主要功能如下：

文本到图像生成
交错文本-图像生成
文本生成
多模态理解

其中粗体表示在Chameleon基础上新增的功能。

📊 示例

为了更好地展示Anole的能力，这里提供一些性能示例。

[!注意]
我们已提供开源模型权重、代码和详细教程，以确保每个人都能复现这些结果，甚至微调模型以创建自己的风格变体。（技术民主化一直是我们的目标。）

交错图像-文本生成

文本到图像

更多示例

</details>

🔍 方法论

根据可用信息和我们的测试，Chameleon的最新版本在文本理解、文本生成和多模态理解方面表现出色。Anole基于Chameleon构建，旨在促进Chameleon的图像生成和多模态生成能力。

Chameleon的预训练数据原生包含文本和图像两种模态，理论上具备图像生成能力。我们的目标是促进这种能力，同时不影响其文本理解、生成和多模态理解能力。为实现这一目标，我们冻结了Chameleon的大部分参数，仅微调了transformer输出头层中与图像标记ID对应的logits。

具体而言，Anole-7b-v0.1使用少量图像数据（5,859张图像，约600万个图像标记）开发，仅在少量参数（不到40M）上进行微调，用时很短（在8个A100 GPU上约30分钟）。尽管如此，Anole-7b-v0.1展现出令人印象深刻的图像生成能力。

我们承诺持续更新Anole以增强其能力。

🚀 开始使用

安装

下载模型：Anole 或 Chameleon

git lfs install
git clone https://huggingface.co/GAIR/Anole-7b-v0.1

或

huggingface-cli download --resume-download GAIR/Anole-7b-v0.1 --local-dir Anole-7b-v0.1 --local-dir-use-symlinks False

从chameleon分支安装transformers（已包含在本仓库中），安装chameleon库，以及其他依赖

git clone https://github.com/GAIR-NLP/anole.git
cd anole
bash install.sh

Anole推理

我们的推理代码基于Meta Chameleon，经过优化和加速以提高推理效率。它还包括一个用于调试的可视化查看器。

检查点

要设置检查点路径，请修改constants.py。默认情况下，模型从./data加载检查点。

一种更灵活的方法是通过.env文件配置检查点路径，设置CKPT_PATH，或者直接运行

export CKPT_PATH=/path/to/your/Anole/ckpt

文本生成图像

要根据文本生成图像，运行text2image.py脚本：

python text2image.py [-h] -i INSTRUCTION [-b BATCH_SIZE] [-s SAVE_DIR]

instruction: 图像生成的指令。
batch_size: 要生成的图像数量。
save_dir: 保存生成图像的目录。

此命令将根据相同的instruction一次性生成batch_size张图像，默认为10张。例如：

python text2image.py -i '画一只狗'

交错图文生成

要生成交错的图文内容，运行interleaved_generation.py脚本：

python interleaved_generation.py [-h] -i INSTRUCTION [-s SAVE_DIR]

instruction: 交错图文生成的指令。
save_dir: 保存生成图像的目录。例如：

python interleaved_generation.py -i '请用图片介绍吉尤姆里市。'

多模态输入和多模态输出

我们根据不同模态将多模态输入分为不同的段落，每个段落的类型为"text"或"image"。（详见input.json）您可以通过构建这样的输入文件来控制多模态输入。要使模型进行此推理，您可以运行inference.py脚本：

python inference.py [-h] -i INPUT [-s SAVE_DIR]

input: 多模态输入文件。
save_dir: 保存生成图像的目录。例如：

python inference.py -i input.json

微调Anole和Chameleon

请按照training和facilitating_image_generation中的说明进行操作。请注意，我们将持续更新这部分内容。

我们的微调代码基于transformers trainer和deepspeed开发，并很大程度上受到transformers中pull request #31534的启发。

🛠️ 模型

模型名称	HF检查点	许可证
Anole-7b-v0.1	🤗 <a href="https://huggingface.co/GAIR/Anole-7b-v0.1" target="_blank">7B</a>	Chameleon许可证

⏭️ 下一步计划

支持使用Hugging Face进行多模态推理
支持Hugging Face模型和PyTorch模型之间的转换

📝 使用和许可说明

Anole仅供研究使用。我们的模型权重遵循与Chameleon相同的许可证。我们使用的微调图像来自LAION-5B aesthetic，因此遵循与LAION相同的许可证。

⚠️ 免责声明

Anole仍在开发中，存在许多需要解决的限制。重要的是，我们尚未对Anole模型的图像生成能力进行安全性和无害性的对齐。因此，我们鼓励用户谨慎地与Anole互动，并报告任何令人担忧的行为，以帮助改进模型的安全性和道德考虑。

🙏 致谢

我们衷心感谢Meta Chameleon团队开源Chameleon，我们的大部分推理代码都基于它。
我们也非常感谢@zucchini-nlp和所有为transformers提交的pull request #31534做出贡献的人。这个PR对我们训练代码的开发至关重要。

引用

如果您觉得该仓库有用，请引用我们的论文。

@article{chern2024anole,
  title={ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation},
  author={Chern, Ethan and Su, Jiadi and Ma, Yan and Liu, Pengfei},
  journal={arXiv preprint arXiv:2407.06135},
  year={2024}
}