LaVIT：赋予大型语言模型理解和生成视觉内容的能力

这是多模态大型语言模型LaVIT和Video-LaVIT的官方代码库。LaVIT项目旨在利用LLM的卓越能力来处理视觉内容。所提出的预训练策略支持在统一框架下进行视觉理解和生成。

在LLM中使用动态离散视觉标记化进行统一的语言-视觉预训练，ICLR 2024，[arXiv] [引用]
Video-LaVIT：使用解耦的视觉-运动标记化进行统一的视频-语言预训练，[arXiv] [项目] [引用]

新闻和更新

2024.04.21 🚀🚀🚀 我们已在HuggingFace上发布了Video-LaVIT的预训练权重，并提供了推理代码。
2024.02.05 🌟🌟🌟 我们提出了Video-LaVIT：一种有效的多模态预训练方法，使LLM能够在统一框架下理解和生成视频内容。
2024.01.15 👏👏👏 LaVIT已被ICLR 2024接收！
2023.10.17 🚀🚀🚀 我们在HuggingFace上发布了LaVIT的预训练权重，并提供了用于多模态理解和生成的推理代码。

介绍

LaVIT和Video-LaVIT是通用多模态基础模型，继承了LLM成功的学习范式：以自回归方式预测下一个视觉/文本标记。LaVIT系列工作的核心设计包括视觉标记器和解标记器。视觉标记器旨在将非语言视觉内容（如图像、视频）转换为LLM可读的离散标记序列，就像外语一样。解标记器将LLM生成的离散标记恢复为连续的视觉信号。

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/24ad499b-4200-4ec2-ae85-d46fbd789cf3.png"/> </div><br/> <div align="center"> LaVIT流程 </div><br/> <div align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/fddd4ee8-0944-4b0a-8f40-7523139e037c.jpg"/> </div><br/> <div align="center"> Video-LaVIT流程 </div><br/>

预训练后，LaVIT和Video-LaVIT可以支持：

阅读图像和视频内容，生成描述，回答问题。
文本到图像、文本到视频和图像到视频的生成。
通过多模态提示进行生成。

<a name="Citing"></a>引用

如果本代码库对您的研究有帮助，请考虑给它加星并在您的出版物中引用LaVIT。

@article{jin2023unified,
  title={Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization},
  author={Jin, Yang and Xu, Kun and Xu, Kun and Chen, Liwei and Liao, Chao and Tan, Jianchao and Mu, Yadong and others},
  journal={arXiv preprint arXiv:2309.04669},
  year={2023}
}

@article{jin2024video,
  title={Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization},
  author={Jin, Yang and Sun, Zhicheng and Xu, Kun and Chen, Liwei and Jiang, Hao and Huang, Quzhe and Song, Chengru and Liu, Yuliang and Zhang, Di and Song, Yang and others},
  journal={arXiv preprint arXiv:2402.03161},
  year={2024}
}