LanguageBind

LanguageBind

通过语言绑定实现跨模态语义对齐

LanguageBind是一种基于语言的多模态预训练方法,通过语言将不同模态进行语义关联。该方法引入了VIDAL-10M数据集,包含1000万条视频、红外、深度、音频及对应语言数据。通过多视角增强的语言描述训练,LanguageBind在多个跨模态任务上实现了先进性能,无需中间模态即可完成跨模态语义对齐。

LanguageBind多模态预训练视频语言零样本分类Github开源项目
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/f7f5027b-6323-45f8-90d1-32d3176ba8cc.jpg" width="350" style="margin-bottom: 0.2;"/><img src="https://yellow-cdn.veclightyear.com/835a84d5/5893e054-36dd-4ef3-a23e-2a85bc297abd.jpg" width="450" style="margin-bottom: 0.2;"/> <p> <h2 align="center"> <a href="https://arxiv.org/pdf/2310.01852.pdf">【ICLR 2024 🔥】LanguageBind:通过基于语言的语义对齐将视频-语言预训练扩展到N种模态</a></h2> <h5 align="center"> 如果您喜欢我们的项目,请在GitHub上给我们一个星标⭐以获取最新更新。 </h2> <h5 align="center">

hf_space Dataset meta arXiv wechat jiqizhixin zhihu License Data License Hits GitHub issues GitHub closed issues <br>

</h5>

PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC <br> PWC

<details open><summary>💡 我还有其他可能引起您兴趣的视觉-语言项目 ✨。 </summary><p> > [**对齐后投影的统一视觉表示学习:Video-LLaVA**](https://arxiv.org/abs/2311.10122) <br> > 林斌、叶阳、朱斌、崔嘉熙、宁沐楠、金鹏、袁礼 <br> [![github](https://img.shields.io/badge/-Github-black?logo=github)](https://github.com/PKU-YuanGroup/Video-LLaVA) [![github](https://yellow-cdn.veclightyear.com/835a84d5/cec300c0-4dc0-40bc-814b-f475ec1a07b5.svg?style=social)](https://github.com/PKU-YuanGroup/Video-LLaVA) [![arXiv](https://yellow-cdn.veclightyear.com/835a84d5/24489bac-8d7a-4440-abcf-4c9a8d946b68.svg?logo=arXiv)](https://arxiv.org/abs/2311.10122) <br>

大型视觉语言模型的专家混合:MoE-LLaVA <br> 林斌、唐振宇、叶阳、崔嘉熙、朱斌、金鹏、张俊武、宁沐楠、袁礼 <br> github github arXiv <br>

Video-Bench: 评估基于视频的大型语言模型的综合基准和工具包 <br> 宁沐楠、朱斌、谢雨佳、林斌、崔嘉熙、袁路、陈东东、袁礼 <br> github github arXiv <br>

</p></details>

📰 新闻

  • [2024.01.27] 👀👀👀 我们的 MoE-LLaVA 已发布!一个具有3B参数的稀疏模型超越了具有7B参数的密集模型。
  • [2024.01.16] 🔥🔥🔥 我们的 LanguageBind 已被 ICLR 2024 接收!我们获得了 6(3)8(6)6(6)6(6) 的评分 在这里
  • [2023.12.15] 💪💪💪 我们扩展了 💥💥💥 VIDAL 数据集,现在拥有 1000万视频-文本数据。我们推出了 LanguageBind_Video 1.5,请查看我们的模型库
  • [2023.12.10] 我们扩展了 💥💥💥 VIDAL 数据集,现在拥有 1000万深度数据和1000万热成像数据。我们正在Hugging Face上上传热成像和深度数据,预计整个过程将持续1-2个月。
  • [2023.11.27] 🔥🔥🔥 我们已更新了我们的论文,包含紧急零样本结果,请查看我们的 ✨ 结果
  • [2023.11.26] 💥💥💥 我们已在这里开源了所有文本源和相应的YouTube ID。
  • [2023.11.26] 📣📣📣 我们已开源完全微调的 视频和音频 模型,再次实现了性能提升,请查看我们的模型库
  • [2023.11.22] 我们即将发布完全微调的版本,巨大版本目前正在训练中。
  • [2023.11.21] 💥 我们正在DATASETS.md中发布样本数据,以便感兴趣的人可以进一步修改代码,在自己的数据上进行训练。
  • [2023.11.20] 🚀🚀🚀 Video-LLaVA构建了一个大型视觉语言模型,基于LanguageBind编码器实现了🎉最先进的性能。
  • [2023.10.23] 🎶 LanguageBind-Audio在5个数据集上实现了🎉🎉🎉最先进的(SOTA)性能,请查看我们的 ✨ 结果
  • [2023.10.14] 😱 发布了更强大的LanguageBind-Video,请查看我们的 ✨ 结果!视频检查点已在Huggingface Model Hub上更新
  • [2023.10.10] 我们提供了样本数据,可在assets中找到,并描述了紧急零样本使用
  • [2023.10.07] 检查点已在 🤗 Huggingface Model上可用。
  • [2023.10.04] 代码和演示现已可用!欢迎关注 👀 此存储库以获取最新更新。

😮 亮点

💡 高性能,但无需中间模态

LanguageBind是一种以语言为中心的多模态预训练方法,以语言作为不同模态之间的纽带,因为语言模态已被充分探索并包含丰富的语义。

  • 以下第一张图显示了LanguageBind的架构。LanguageBind可以轻松扩展到分割、检测任务,并可能扩展到无限的模态。

⚡️ 多模态、完全对齐且数量庞大的数据集

我们提出了VIDAL-10M1000万条数据包含频、外、度、频及其对应的言,极大地扩展了视觉模态之外的数据。

  • 第二张图显示了我们提出的VIDAL-10M数据集,包括五种模态:视频、红外、深度、音频和语言。

🔥 用于训练的多视角增强描述

我们对语言进行了多视角增强。我们生成了结合元数据空间时间的多视角描述,极大地增强了语言的语义信息。此外,我们进一步用ChatGPT增强语言,为每个模态对齐的语言创建了良好的语义空间。

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/8ddcb1e2-7f76-4f29-a1d5-616ec09d8e0d.jpg" width=100%> </p> <p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/fcce7e3a-ba2b-44f8-9c6a-eb04c6b681f1.jpg" width=99%> </p>

🤗 演示

  • 本地演示。 强烈建议尝试我们的网页演示,它包含了LanguageBind目前支持的所有功能。
python gradio_app.py
  • 在线演示。 我们在Huggingface Spaces提供了在线演示。在这个演示中,你可以计算模态与语言之间的相似度,如音频到语言、视频到语言和深度到图像。
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/093bbc14-6eaa-4eb3-9dfb-bbff5f89ea45.png" width=100%> </p>

🚀 主要结果

视频-语言

LanguageBind在四个数据集上实现了最先进的(SOTA)性能,*表示完全微调的结果。

<p align="left"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/e024488a-8c51-4a86-9902-d2f2a90249d4.jpg" width=80%> </p> ### 多模态 视频-语言、红外-语言、深度-语言和音频-语言零样本分类,*表示全量微调的结果。 <p align="left"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/cc18020d-8c6a-443e-9360-3d43d29d06fb.jpg" width=80%> </p> 我们报告了文本到音频的检索结果,*表示全量微调的结果。 <p align="left"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/a28cbaa1-17d7-4aab-a15f-b7a43ae54f46.jpg" width=35%> </p>

紧急情况结果

<p align="left"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/58bdef15-97bb-44ca-89c6-6f4556dbc3c9.jpg" width=60%> </p>

🛠️ 要求和安装

  • Python >= 3.8
  • Pytorch >= 1.13.1
  • CUDA 版本 >= 11.6
  • 安装所需包:
git clone https://github.com/PKU-YuanGroup/LanguageBind cd LanguageBind pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116 pip install -r requirements.txt

🐳 模型库

表格中的名称代表不同的编码器模型。例如,LanguageBind/LanguageBind_Video_FT代表全量微调版本,而LanguageBind/LanguageBind_Video代表LoRA微调版本。

您可以在推荐的API使用中自由替换它们。我们建议使用全量微调版本,因为它提供更强的性能。

<div align="center"> <table border="1" width="100%"> <tr align="center"> <th>模态</th><th>LoRA微调</th><th>全量微调</th> </tr> <tr align="center"> <td>视频</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Video">LanguageBind_Video</a></td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Video_FT">LanguageBind_Video_FT</a></td> </tr> <tr align="center"> <td>音频</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Audio">LanguageBind_Audio</a></td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Audio_FT">LanguageBind_Audio_FT</a></td> </tr> <tr align="center"> <td>深度</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Depth">LanguageBind_Depth</a></td><td>-</td> </tr> <tr align="center"> <td>热成像</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Thermal">LanguageBind_Thermal</a></td><td>-</td> </tr> </table> </div> <div align="center"> <table border="1" width="100%"> <tr align="center"> <th>版本</th><th>微调</th><th>模型大小</th><th>帧数</th><th>HF链接</th><th>MSR-VTT</th><th>DiDeMo</th><th>ActivityNet</th><th>MSVD</th> </tr> <tr align="center"> <td>LanguageBind_Video</td><td>LoRA</td><td>Large</td><td>8</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Video">链接</a></td><td>42.6</td><td>37.8</td><td>35.1</td><td>52.2</td> </tr> <tr align="center"> <td>LanguageBind_Video_FT</td><td>全量微调</td><td>Large</td><td>8</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Video_FT">链接</a></td><td>42.7</td><td>38.1</td><td>36.9</td><td>53.5</td> </tr> <tr align="center"> <td>LanguageBind_Video_V1.5_FT</td><td>全量微调</td><td>Large</td><td>8</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Video_V1.5_FT">链接</a></td><td>42.8</td><td>39.7</td><td>38.4</td><td>54.1</td> </tr> <tr align="center"> <td>LanguageBind_Video_V1.5_FT</td><td>全量微调</td><td>Large</td><td>12</td><td>即将推出</td> </tr> <tr align="center"> <td>LanguageBind_Video_Huge_V1.5_FT</td><td>全量微调</td><td>Huge</td><td>8</td><td><a href="https://huggingface.co/LanguageBind/LanguageBind_Video_Huge_V1.5_FT">链接</a></td><td>44.8</td><td>39.9</td><td>41.0</td><td>53.7</td> </tr> <tr align="center"> <td>LanguageBind_Video_Huge_V1.5_FT</td><td>全量微调</td><td>Huge</td><td>12</td><td>即将推出</td> </tr> </table> </div>

🤖 API

我们开源了所有模态的预处理代码。 如果您想从Huggingface的模型仓库或本地加载模型(例如 LanguageBind/LanguageBind_Thermal),可以使用以下代码片段!

多模态绑定推理

我们在assets中提供了一些示例数据集,以快速查看languagebind的工作原理。

import torch from languagebind import LanguageBind, to_device, transform_dict, LanguageBindImageTokenizer if __name__ == '__main__': device = 'cuda:0' device = torch.device(device) clip_type = { 'video': 'LanguageBind_Video_FT', # 也可以是LanguageBind_Video 'audio': 'LanguageBind_Audio_FT', # 也可以是LanguageBind_Audio 'thermal': 'LanguageBind_Thermal', 'image': 'LanguageBind_Image', 'depth': 'LanguageBind_Depth', } model = LanguageBind(clip_type=clip_type, cache_dir='./cache_dir') model = model.to(device) model.eval() pretrained_ckpt = f'lb203/LanguageBind_Image' tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir/tokenizer_cache_dir') modality_transform = {c: transform_dict[c](model.modality_config[c]) for c in clip_type.keys()} image = ['assets/image/0.jpg', 'assets/image/1.jpg'] audio = ['assets/audio/0.wav', 'assets/audio/1.wav'] video = ['assets/video/0.mp4', 'assets/video/1.mp4'] depth = ['assets/depth/0.png', 'assets/depth/1.png'] thermal = ['assets/thermal/0.jpg', 'assets/thermal/1.jpg'] language = ["训练一只鹦鹉爬梯子。", '一只狮子爬树捕猴子。'] inputs = { 'image': to_device(modality_transform['image'](image), device), 'video': to_device(modality_transform['video'](video), device), 'audio': to_device(modality_transform['audio'](audio), device), 'depth': to_device(modality_transform['depth'](depth), device), 'thermal': to_device(modality_transform['thermal'](thermal), device), } inputs['language'] = to_device(tokenizer(language, max_length=77, padding='max_length', truncation=True, return_tensors='pt'), device) with torch.no_grad(): embeddings = model(inputs) print("视频 x 文本:\n", torch.softmax(embeddings['video'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy()) print("图像 x 文本:\n", torch.softmax(embeddings['image'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy()) print("深度 x 文本:\n", torch.softmax(embeddings['depth'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy()) print("音频 x 文本:\n", torch.softmax(embeddings['audio'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy()) print("热成像 x 文本:\n", torch.softmax(embeddings['thermal'] @ embeddings['language'].T, dim=-1).detach().cpu().numpy())

然后返回以下结果。

视频 x 文本: [[9.9989331e-01 1.0667283e-04] [1.3255903e-03 9.9867439e-01]] 图像 x 文本: [[9.9990666e-01 9.3292067e-05] [4.6132666e-08 1.0000000e+00]] 深度 x 文本: [[0.9954276 0.00457235] [0.12042473 0.8795753 ]] 音频 x 文本: [[0.97634876 0.02365119] [0.02917843 0.97082156]] 热成像 x 文本: [[0.9482511 0.0517489 ] [0.48746133 0.5125386 ]]

应急零样本

由于LanguageBind将每种模态绑定在一起,我们还发现了应急零样本。使用非常简单。

print("视频 x 音频:\n", torch.softmax(embeddings['video'] @ embeddings['audio'].T, dim=-1).detach().cpu().numpy()) print("图像 x 深度:\n", torch.softmax(embeddings['image'] @ embeddings['depth'].T, dim=-1).detach().cpu().numpy()) print("图像 x 热成像:\n", torch.softmax(embeddings['image'] @ embeddings['thermal'].T, dim=-1).detach().cpu().numpy())

然后,你会得到:

视频 x 音频:
 [[1.0000000e+00 0.0000000e+00]
 [3.1150486e-32 1.0000000e+00]]
图像 x 深度:
 [[1. 0.]
 [0. 1.]]
图像 x 热成像:
 [[1. 0.]
 [0. 1.]]

用于X-语言任务的不同分支

此外,LanguageBind可以拆解成不同的分支来处理不同的任务。请注意,我们没有训练图像,只是从OpenCLIP初始化。

热成像

import torch from languagebind import LanguageBindThermal, LanguageBindThermalTokenizer, LanguageBindThermalProcessor pretrained_ckpt = 'LanguageBind/LanguageBind_Thermal' model = LanguageBindThermal.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') tokenizer = LanguageBindThermalTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') thermal_process = LanguageBindThermalProcessor(model.config, tokenizer) model.eval() data = thermal_process([r"你的/热成像.jpg"], ['你的文本'], return_tensors='pt') with torch.no_grad(): out = model(**data) print(out.text_embeds @ out.image_embeds.T)

深度

import torch from languagebind import LanguageBindDepth, LanguageBindDepthTokenizer, LanguageBindDepthProcessor pretrained_ckpt = 'LanguageBind/LanguageBind_Depth' model = LanguageBindDepth.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') tokenizer = LanguageBindDepthTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') depth_process = LanguageBindDepthProcessor(model.config, tokenizer) model.eval() data = depth_process([r"你的/深度.png"], ['你的文本。'], return_tensors='pt') with torch.no_grad(): out = model(**data) print(out.text_embeds @ out.image_embeds.T)

视频

import torch from languagebind import LanguageBindVideo, LanguageBindVideoTokenizer, LanguageBindVideoProcessor pretrained_ckpt = 'LanguageBind/LanguageBind_Video_FT' # 也可以是 'LanguageBind/LanguageBind_Video' model = LanguageBindVideo.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') tokenizer = LanguageBindVideoTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') video_process = LanguageBindVideoProcessor(model.config, tokenizer) model.eval() data = video_process(["你的/视频.mp4"], ['你的文本。'], return_tensors='pt') with torch.no_grad(): out = model(**data) print(out.text_embeds @ out.image_embeds.T)

音频

import torch from languagebind import LanguageBindAudio, LanguageBindAudioTokenizer, LanguageBindAudioProcessor pretrained_ckpt = 'LanguageBind/LanguageBind_Audio_FT' # 也可以是 'LanguageBind/LanguageBind_Audio' model = LanguageBindAudio.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') tokenizer = LanguageBindAudioTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') audio_process = LanguageBindAudioProcessor(model.config, tokenizer) model.eval() data = audio_process([r"你的/音频.wav"], ['你的音频。'], return_tensors='pt') with torch.no_grad(): out = model(**data) print(out.text_embeds @ out.image_embeds.T)

图像

请注意,我们的图像编码器与OpenCLIP相同。没有像其他模态那样进行微调。

import torch from languagebind import LanguageBindImage, LanguageBindImageTokenizer, LanguageBindImageProcessor pretrained_ckpt = 'LanguageBind/LanguageBind_Image' model = LanguageBindImage.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') tokenizer = LanguageBindImageTokenizer.from_pretrained(pretrained_ckpt, cache_dir='./cache_dir') image_process = LanguageBindImageProcessor(model.config, tokenizer) model.eval() data = image_process([r"你的/图像.jpg"], ['你的文本。'], return_tensors='pt') with torch.no_grad(): out = model(**data) print(out.text_embeds @ out.image_embeds.T)

💥 VIDAL-10M

数据集信息在DATASETS.md中。

🗝️ 训练 & 验证

训练和验证说明在TRAIN_AND_VALIDATE.md中。

👍 致谢

  • OpenCLIP 一个开源预训练框架。
  • CLIP4Clip 一个开源视频-文本检索框架。
  • sRGB-TIR 一个生成红外(热成像)图像的开源框架。
  • GLPN 一个生成深度图像的开源框架。

🔒 许可证

  • 本项目的大部分内容根据LICENSE文件中的MIT许可证发布。
  • 本项目的数据集根据DATASET_LICENSE文件中的CC-BY-NC 4.0许可证发布。

✏️ 引用

如果您发现我们的论文和代码对您的研究有用,请考虑给个星标 :star: 和引用 :pencil:。

@misc{zhu2023languagebind, title={LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment}, author={Bin Zhu and Bin Lin and Munan Ning and Yang Yan and Jiaxi Cui and Wang HongFa and Yatian Pang and Wenhao Jiang and Junwu Zhang and Zongwei Li and Cai Wan Zhang and Zhifeng Li and Wei Liu and Li Yuan}, year={2023}, eprint={2310.01852}, archivePrefix={arXiv}, primaryClass={cs.CV} }

✨ 星标历史

Star History

🤝 贡献者

<a href="https://github.com/PKU-YuanGroup/LanguageBind/graphs/contributors"> <img src="https://contrib.rocks/image?repo=PKU-YuanGroup/LanguageBind" /> </a>

编辑推荐精选

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

下拉加载更多