大视野

这个代码库旨在使用Cloud TPU VM或GPU机器训练大规模视觉模型。它基于Jax/Flax库，并使用tf.data和TensorFlow Datasets来实现可扩展和可复现的输入流水线。

开源这个代码库有两个主要目的：

发布在这个代码库中开发的研究项目的代码（见下面的列表）。
为在GPU机器和Google Cloud TPU上运行大规模视觉实验提供一个强大的起点，可以从单个TPU核心无缝扩展到最多2048个TPU核心的分布式设置。

big_vision旨在支持Google的研究项目。除非事先批准（请先在issue中询问），否则我们不太可能处理功能请求或接受外部贡献。对于一个仅用于迁移的、得到良好支持的代码库，请参见vision_transformer。

请注意，big_vision是一个相当动态的代码库，虽然我们打算始终保持核心代码完全功能，但我们不能保证及时更新位于.../proj/...子文件夹中的项目特定代码。然而，我们提供了一个表格，列出了已知特定项目工作的最后提交。

以下研究项目最初是在big_vision代码库中进行的：

架构研究

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale，作者： Alexey Dosovitskiy*、Lucas Beyer*、Alexander Kolesnikov*、Dirk Weissenborn*、 Xiaohua Zhai*、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、 Georg Heigold、Sylvain Gelly、Jakob Uszkoreit和Neil Houlsby*
Scaling Vision Transformers，作者： Xiaohua Zhai*、Alexander Kolesnikov*、Neil Houlsby和Lucas Beyer*
资源：配置。
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers，作者： Andreas Steiner*、Alexander Kolesnikov*、Xiaohua Zhai*、Ross Wightman、 Jakob Uszkoreit和Lucas Beyer*
MLP-Mixer: An all-MLP Architecture for Vision，作者： Ilya Tolstikhin*、Neil Houlsby*、Alexander Kolesnikov*、Lucas Beyer*、 Xiaohua Zhai、Thomas Unterthiner、Jessica Yung、Andreas Steiner、 Daniel Keysers、Jakob Uszkoreit、Mario Lucic、Alexey Dosovitskiy
资源：配置。
Better plain ViT baselines for ImageNet-1k，作者： Lucas Beyer、Xiaohua Zhai、Alexander Kolesnikov
资源：配置
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes，作者： Alexander Kolesnikov^、André Susano Pinto^、Lucas Beyer*、Xiaohua Zhai*、Jeremiah Harmsen*、Neil Houlsby*
资源：readme、配置、colab。
FlexiViT: One Model for All Patch Sizes，作者： Lucas Beyer*、Pavel Izmailov*、Alexander Kolesnikov*、Mathilde Caron*、Simon Kornblith*、Xiaohua Zhai*、Matthias Minderer*、Michael Tschannen*、Ibrahim Alabdulmohsin*、Filip Pavetic*
资源：readme、配置。
Dual PatchNorm，作者：Manoj Kumar、Mostafa Dehghani、Neil Houlsby。
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design，作者： Ibrahim Alabdulmohsin*、Xiaohua Zhai*、Alexander Kolesnikov、Lucas Beyer*。
(部分) Scaling Vision Transformers to 22 Billion Parameters，作者： Mostafa Dehghani*、Josip Djolonga*、Basil Mustafa*、Piotr Padlewski*、Jonathan Heek*、许多中间作者、Neil Houlsby*。
(部分) Finite Scalar Quantization: VQ-VAE Made Simple，作者： Fabian Mentzer、David Minnen、Eirikur Agustsson、Michael Tschannen。
GIVT: Generative Infinite-Vocabulary Transformers，作者： Michael Tschannen、Cian Eastwood、Fabian Mentzer。
资源：readme、配置、colab。
Unified Auto-Encoding with Masked Diffusion，作者： Philippe Hansen-Estruch、Sriram Vishwanath、Amy Zhang、Manan Tomar。

多模态研究

LiT: 基于锁定图像文本微调的零样本迁移，作者: Xiaohua Zhai*, Xiao Wang*, Basil Mustafa*, Andreas Steiner*, Daniel Keysers, Alexander Kolesnikov 和 Lucas Beyer*
资源: 训练器, 配置, colab。
仅从像素实现图像和语言理解，作者: Michael Tschannen, Basil Mustafa, Neil Houlsby
资源: readme, 配置, colab。
用于语言图像预训练的Sigmoid损失，作者: Xiaohua Zhai*, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer*
资源: colab和模型，代码待完成。
计算机视觉多任务自回归解码器研究，作者: Lucas Beyer*, Bo Wan*, Gagan Madan*, Filip Pavetic*, Andreas Steiner*, Alexander Kolesnikov, André Susano Pinto, Emanuele Bugliarello, Xiao Wang, Qihang Yu, Liang-Chieh Chen, Xiaohua Zhai*。
图像描述生成器也是可扩展的视觉学习器，作者: Michael Tschannen*, Manoj Kumar*, Andreas Steiner*, Xiaohua Zhai, Neil Houlsby, Lucas Beyer*。
资源: readme, 配置, 模型。
三塔: 使用预训练图像模型的灵活对比学习，作者: Jannik Kossen, Mark Collier, Basil Mustafa, Xiao Wang, Xiaohua Zhai, Lucas Beyer, Andreas Steiner, Jesse Berent, Rodolphe Jenatton, Efi Kokiopoulou。
(部分) PaLI: 联合缩放的多语言语言-图像模型，作者: Xi Chen, Xiao Wang, Soravit Changpinyo, 中间有很多作者, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut。
(部分) PaLI-3 视觉语言模型: 更小、更快、更强，作者: Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut。
LocCa，作者: Bo Wan, Michael Tschannen, Yongqin Xian, Filip Pavetic, Ibrahim Alabdulmohsin, Xiao Wang, André Susano Pinto, Andreas Steiner, Lucas Beyer, Xiaohua Zhai。
PaliGemma，作者: 很多作者。\
资源: readme, 模型, 迁移配置, 数据集, CountBenchQA。

训练

知识蒸馏: 好老师应该耐心且一致，作者: Lucas Beyer*, Xiaohua Zhai*, Amélie Royer*, Larisa Markeeva*, Rohan Anil, 和 Alexander Kolesnikov*
资源: README, 训练器, colab。
锐度感知最小化以有效提高泛化能力，作者: Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur
代理差距最小化改进锐度感知训练，作者: Juntang Zhuang, Boqing Gong, Liangzhe Yuan, Yin Cui, Hartwig Adam, Nicha Dvornek, Sekhar Tatikonda, James Duncan 和 Ting Liu
资源: 训练器, 配置复现结果
用任务奖励调整计算机视觉模型，作者: André Susano Pinto*, Alexander Kolesnikov*, Yuge Shi, Lucas Beyer, Xiaohua Zhai。
(部分) VeLO: 通过扩大规模训练多功能学习优化器作者: Luke Metz, James Harrison, C. Daniel Freeman, Amil Merchant, Lucas Beyer, James Bradbury, Naman Agrawal, Ben Poole, Igor Mordatch, Adam Roberts, Jascha Sohl-Dickstein。

其他

我们完成ImageNet了吗?，作者: Lucas Beyer*, Olivier J. Hénaff*, Alexander Kolesnikov*, Xiaohua Zhai*, Aäron van den Oord*。
无过滤: 对比视觉语言模型中的文化和社会经济多样性，作者: Angéline Pouget, Lucas Beyer, Emanuele Bugliarello, Xiao Wang, Andreas Peter Steiner, Xiaohua Zhai, Ibrahim Alabdulmohsin。

代码库高层组织和原则简述

主要入口点是训练器模块，它通常完成所有与创建模型和优化器、加载数据、检查点和在循环中训练/评估模型相关的样板代码。我们在根文件夹中提供了规范的训练器train.py。通常，big_vision中的各个项目会分叉并定制这个训练器。

所有模型、评估器和预处理操作都位于相应的子目录中，通常可以在不同项目之间重用。我们鼓励这些目录内使用兼容的API以促进重用性，但并不严格执行，因为个别项目可能需要引入自定义API。

我们有一个强大的配置系统，配置文件位于configs/目录中。自定义训练器和模块可以直接扩展/修改配置选项。

特定项目的代码位于.../proj/...命名空间中。并非总是能够将特定项目与核心big_vision库保持同步，下面我们提供了每个项目的最后已知提交，其中项目代码预期可以工作。

训练作业对中断具有鲁棒性，并且会从最后保存的检查点无缝恢复(假设用户提供了正确的--workdir路径)。

每个配置文件顶部都包含一个带有COMMAND片段的注释，用于运行它，以及一些关于预期运行时间和结果的提示。有关更多详细信息，请参见下文，但通常在GPU机器上运行涉及调用python -m COMMAND，而在TPU上运行(包括多主机)涉及

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=all
  --command "bash big_vision/run_tpu.sh COMMAND"

有关如何在GPU机器或Google Cloud TPU上运行big_vision代码的更多详细说明，请参见下文。

默认情况下，我们会写入检查点和日志文件。日志文件是JSON对象列表，我们提供了一个简短直观的示例colab来读取和显示日志和检查点。

当前和未来内容

第一个版本包含了在Cloud TPU VM上大规模预训练、迁移和评估分类模型的核心部分。

我们此后添加了以下关键特性和项目:

如LiT和CLIP中的对比图像-文本模型训练和评估。
耐心和一致的知识蒸馏。
ViT的扩展。
MLP-Mixer。
UViM。

我们计划在不久的将来发布的特性和项目,顺序不分先后:

TFDS中的ImageNet-21k。
加载我们发表论文中使用的各种公开模型(NFNet、MoCov3、DINO)。
内存高效的Polyak平均实现。
高级JAX计算和内存分析。我们正在使用内部工具,但最终可能会添加对公开可用工具的支持。

我们将继续在这里发布未来在big_vision中开发的论文代码。

非内容

以下内容存在于该代码库的内部版本中,且没有发布计划:

针对质量和速度的常规回归测试。它们严重依赖内部基础设施。
实验的高级日志记录、监控和绘图。这也严重依赖内部基础设施。但我们对此持开放态度,未来可能会添加一些,特别是如果以自包含方式实现的话。
尚未发表的正在进行的研究项目。

GPU设置

我们首先讨论如何在(本地)GPU机器上设置和运行big_vision,然后讨论Cloud TPU的设置。请注意,(本地)GPU设置的数据准备步骤很大程度上可以在Cloud TPU设置中重复使用。虽然说明为简洁起见跳过了这一步,但我们强烈建议在安装Python依赖项时使用虚拟环境。

设置Python包

第一步是检出big_vision并安装相关的Python依赖项:

git clone https://github.com/google-research/big_vision
cd big_vision/
pip3 install --upgrade pip
pip3 install -r big_vision/requirements.txt

可以通过以下方式获取最新版本的jax库:

pip3 install --upgrade "jax[cuda]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

根据您机器上安装的CUDA和cuDNN库,您可能需要不同的jax包。请查阅官方jax文档以获取更多信息。

准备tfds数据

为了统一和可重复地访问标准数据集,我们选择使用tensorflow_datasets (tfds)库。它要求每个数据集被下载、预处理,然后存储在硬盘上(或者如果您使用"Google Cloud",最好存储在"GCP存储桶"中)。

许多数据集可以在首次使用时自动下载和预处理。尽管如此,我们故意禁用此功能,并建议在首次运行之前单独进行数据集准备步骤。如果出现问题,这将使调试更容易,而且一些数据集(如imagenet2012)需要手动下载数据。

大多数数据集,例如cifar100、oxford_iiit_pet或imagenet_v2 可以通过运行以下命令完全自动下载和准备:

cd big_vision/
python3 -m big_vision.tools.download_tfds_datasets cifar100 oxford_iiit_pet imagenet_v2

完整的数据集列表可在此链接查看。

一些数据集,如imagenet2012或imagenet2012_real,需要手动下载数据并放置在$TFDS_DATA_DIR/downloads/manual/中,默认为~/tensorflow_datasets/downloads/manual/。例如,对于imagenet2012和imagenet2012_real,需要将官方的ILSVRC2012_img_train.tar和ILSVRC2012_img_val.tar文件放在该目录中,然后运行 python3 -m big_vision.tools.download_tfds_datasets imagenet2012 imagenet2012_real (可能需要约1小时)。

如果您使用Google Cloud尤其是TPU,您可以将预处理的数据(存储在$TFDS_DATA_DIR中)上传到"Google Cloud存储桶",并在任何(TPU)虚拟机上使用该存储桶来访问数据。

在GPU机器上运行

最后,在安装所有Python依赖项并准备tfds数据后,用户可以使用他们选择的配置运行作业,例如,要在ImageNet数据上训练ViT-S/16模型,应运行以下命令:

python3 -m big_vision.train --config big_vision/configs/vit_s16_i1k.py --workdir workdirs/`date '+%m-%d_%H%M'`

或者要训练MLP-Mixer-B/16,运行(注意gpu8配置参数减少了默认批量大小和周期数):

python3 -m big_vision.train --config big_vision/configs/mlp_mixer_i1k.py:gpu8 --workdir workdirs/`date '+%m-%d_%H%M'`

Cloud TPU VM设置

创建TPU VM

要创建一台具有8个TPU核心的单机,请按照以下Cloud TPU JAX文档操作: https://cloud.google.com/tpu/docs/run-calculation-jax

为支持大规模视觉研究,建议使用更多核心和多主机。以下我们提供如何实现的说明。

首先,创建一些有用的变量,这些变量将被重复使用:

export NAME=<TPU部署的名称,例如my-tpu-machine>
export ZONE=<GCP地理区域,例如europe-west4-a>
export GS_BUCKET_NAME=<存储桶的名称,例如my_bucket>

以下命令行将创建具有32个核心、4个主机的TPU VM。

gcloud compute tpus tpu-vm create $NAME --zone $ZONE --accelerator-type v3-32 --version tpu-ubuntu2204-base

在TPU VM上安装`big_vision`

获取big_vision仓库,将其复制到所有TPU VM主机,并安装依赖项。

git clone https://github.com/google-research/big_vision
gcloud compute tpus tpu-vm scp --recurse big_vision/big_vision $NAME: --zone=$ZONE --worker=all
gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=all --command "bash big_vision/run_tpu.sh"

下载和准备TFDS数据集

我们建议如上所述在本地准备tfds数据,然后将数据上传到Google Cloud存储桶。但是,如果您愿意,不需要手动下载的数据集可以使用TPU机器按照以下描述自动准备。请注意,TPU机器只有100 GB的磁盘空间,多主机TPU切片不允许以写入模式附加外部磁盘,因此以下说明可能无法用于准备大型数据集。作为另一种选择,我们提供了关于如何在仅CPU的GCP机器上准备tfds数据的说明。

具体来说,可以使用以下命令在TPU机器上的~/tensorflow_datasets下生成评估期间使用的七个TFDS数据集:

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=0 --command "TFDS_DATA_DIR=~/tensorflow_datasets bash big_vision/run_tpu.sh big_vision.tools.download_tfds_datasets cifar10 cifar100 oxford_iiit_pet oxford_flowers102 cars196 dtd uc_merced"

然后您可以将数据集复制到GS存储桶,使所有TPU工作节点都可以访问。

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=0 --command "rm -r ~/tensorflow_datasets/downloads && gsutil cp -r ~/tensorflow_datasets gs://$GS_BUCKET_NAME"

如果您想集成其他公共或自定义数据集,即imagenet2012,请遵循官方指南。

预训练模型

有关预训练模型的完整列表,请查看与模型代码相同模块中定义的load函数。关于如何使用这些模型的示例配置,请参见configs/transfer.py。

在TPU VM上运行迁移脚本

以下命令行在cifar10数据集上微调预训练的vit-i21k-augreg-b/32模型。

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=all --command "TFDS_DATA_DIR=gs://$GS_BUCKET_NAME/tensorflow_datasets bash big_vision/run_tpu.sh big_vision.train --config big_vision/configs/transfer.py:model=vit-i21k-augreg-b/32,dataset=cifar10,crop=resmall_crop --workdir gs://$GS_BUCKET_NAME/big_vision/workdir/`date '+%m-%d_%H%M'` --config.lr=0.03"

在TPU VM上运行训练脚本

要在大型数据集(如imagenet2012)上训练您自己的big_vision模型(准备TFDS数据集),请运行以下命令行。

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=all --command "TFDS_DATA_DIR=gs://$GS_BUCKET_NAME/tensorflow_datasets bash big_vision/run_tpu.sh big_vision.train --config big_vision/configs/bit_i1k.py  --workdir gs://$GS_BUCKET_NAME/big_vision/workdir/`date '+%m-%d_%H%M'`"

FSDP训练

big_vision支持灵活的参数和模型分片策略。目前,我们通过简单的配置更改支持流行的FSDP分片,请参见此配置示例。例如,要运行预训练ViT-L模型的FSDP微调,请运行以下命令(可能需要根据您的硬件调整批量大小):

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=all --command "TFDS_DATA_DIR=gs://$GS_BUCKET_NAME/tensorflow_datasets bash big_vision/run_tpu.sh big_vision.train --config big_vision/configs/transfer.py:model=vit-i21k-augreg-l/16,dataset=oxford_iiit_pet,crop=resmall_crop,fsdp=True,batch_size=256 --workdir gs://$GS_BUCKET_NAME/big_vision/workdir/`date '+%m-%d_%H%M'` --config.lr=0.03"

使用SigLIP进行图像-文本训练

使用公共coco标题数据的最小示例:

gcloud compute tpus tpu-vm ssh $NAME --zone=$ZONE --worker=all --command "TFDS_DATA_DIR=gs://$GS_BUCKET_NAME/tensorflow_datasets bash big_vision/run_tpu.sh big_vision.trainers.proj.image_text.siglip --config big_vision/configs/proj/image_text/siglip_lit_coco.py --workdir gs://$GS_BUCKET_NAME/big_vision/`date '+%Y-%m-%d_%H%M'`"

有时有用的gcloud命令

销毁TPU机器:gcloud compute tpus tpu-vm delete $NAME --zone $ZONE
删除所有主机上的所有big_vision相关文件夹:gcloud compute tpus tpu-vm ssh $NAME --zone $ZONE --worker=all --command 'rm -rf ~/big_vision ~/bv_venv'

在独立的GCP CPU机器上准备`tfds`数据

首先创建一个新机器和磁盘(可以根据需要调整具体的机器类型和磁盘设置/容量):

export NAME_CPU_HOST=<CPU-only机器的名称>
export NAME_DISK=<磁盘的名称>
gcloud compute instances create $NAME_CPU_HOST --machine-type c3-standard-22 --zone $ZONE --image-family ubuntu-2204-lts --image-project ubuntu-os-cloud
gcloud compute disks create $NAME_DISK --size 1000GB --zone $ZONE --type pd-balanced

现在将磁盘挂载到新创建的机器上:

gcloud compute instances attach-disk $NAME_CPU_HOST --disk $NAME_DISK --zone $ZONE

接下来,通过gcloud compute ssh $NAME_CPU_HOST --zone=$ZONEssh到机器,并按照说明格式化和挂载磁盘。假设它被挂载到/mnt/disks/tfds。

快完成了,现在克隆并设置big_vision:

gcloud compute ssh $NAME_CPU_HOST --zone=$ZONE --command "git clone https://github.com/google-research/big_vision.git && cd big_vision && sh big_vision/run_tpu.sh"

最后,使用实用程序脚本准备数据集(例如coco_captions),并将结果复制到您的Google Cloud存储桶:

gcloud compute ssh $NAME_CPU_HOST --zone=$ZONE --command "cd big_vision && TFDS_DATA_DIR=/mnt/disks/tfds/tensorflow_datasets bash big_vision/run_tpu.sh big_vision.tools.download_tfds_datasets coco_captions"
gcloud compute ssh $NAME_CPU_HOST --zone=$ZONE --command "rm -rf /mnt/disks/tfds/tensorflow_datasets/downloads && gsutil cp -r /mnt/disks/tfds/tensorflow_datasets gs://$GS_BUCKET_NAME"

ViT基线

我们在名为vit_s16_i1k.py的配置文件中提供了一个经过精心调整的ViT-S/16基线。它在90个训练周期内在ImageNet验证集上达到76.5%的准确率,是ViT模型研究的强大而简单的起点。

请查看我们的arXiv说明以获取更多详细信息,如果这个基线对您的研究有用,请考虑引用:

@article{vit_baseline,
  url = {https://arxiv.org/abs/2205.01580},
  author = {Beyer, Lucas and Zhai, Xiaohua and Kolesnikov, Alexander},
  title = {Better plain ViT baselines for ImageNet-1k},
  journal={arXiv preprint arXiv:2205.01580},
  year = {2022},
}

项目特定提交

特定项目代码预期工作的最后已知提交。核心代码和配置预期在最新版本中工作。

项目	提交
UViM	https://github.com/google-research/big_vision/commit/21bd6ebe253f070f584d8b777ad76f4abce51bef
image_text	https://github.com/google-research/big_vision/commit/8921d5141504390a8a4f7b2dacb3b3c042237290
distill	https://github.com/google-research/big_vision/commit/2f3f493af048dbfd97555ff6060f31a0e686f17f
GSAM	进行中
CLIPPO	https://github.com/google-research/big_vision/commit/fd2d3bd2efc9d89ea959f16cd2f58ae8a495cd44
CapPa	https://github.com/google-research/big_vision/commit/7ace659452dee4b68547575352c022a2eef587a5
GIVT	https://github.com/google-research/big_vision/commit/0cb70881dd33b3343b769347dc19793c4994b8cb

引用代码库

如果您发现这个代码库对您的研究有用,请考虑使用以下BibTEX引用它:

@misc{big_vision,
  author = {Beyer, Lucas and Zhai, Xiaohua and Kolesnikov, Alexander},
  title = {Big Vision},
  year = {2022},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/google-research/big_vision}}
}