Video-LLaVA

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/92d90819-d90d-4495-9694-35a3658fc7a1.png" width="150" style="margin-bottom: 0.2;"/> <p> <h2 align="center"> <a href="https://arxiv.org/abs/2311.10122">Video-LLaVA：通过对齐后投影学习统一的视觉表示</a></h2> <h5 align="center"> 如果您喜欢我们的项目，请在GitHub上给我们一个星标⭐以获取最新更新。 </h2> <h5 align="center">

</h5>

<details open><summary>💡 我还有其他可能引起您兴趣的视频-语言项目 ✨。 </summary><p>

开放索拉计划 <br> <br>

MoE-LLaVA：大型视觉语言模型的专家混合 <br> 林斌、唐振宇、叶阳、崔嘉熙、朱斌、金鹏、张俊武、宁慕南、袁黎 <br> <br>

LanguageBind：通过基于语言的语义对齐将视频-语言预训练扩展到N模态 <br> 朱斌、林斌、宁慕南、闫洋、崔嘉熙、王鸿发、庞亚天、姜文浩、张俊武、李宗伟、张万财、李志锋、刘伟、袁黎 <br> <br>

</p></details> ## 📰 新闻 * **[2024.07.27]** 🔥🔥🔥 一个经过微调的[Video-LLaVA](https://github.com/mfarre/Video-LLaVA-7B-hf-CinePile)专注于主题探索、叙事分析和角色动态。感谢[@micuelll](https://x.com/micuelll/status/1816851392134586540)。CinePile通过在其基准测试中微调Video-LLaVA来解决这些被忽视的领域。

[2024.05.15] 🤝🤝🤝 感谢@zucchini-nlp的慷慨贡献，Video-LLaVa现已在Transformers库中可用！更多详情请参见此处。
[2024.01.27] 👀👀👀 我们的MoE-LLaVA已发布！一个拥有3B参数的稀疏模型表现优于拥有7B参数的密集模型。
[2024.01.17] 🔥🔥🔥 我们的LanguageBind已被ICLR 2024接收！
[2024.01.16] 🔥🔥🔥 我们重新组织了代码并支持LoRA微调，请查看finetune_lora.sh。
[2023.11.30] 🤝 感谢社区的慷慨贡献，OpenXLab的演示现已可访问。
[2023.11.23] 我们正在训练一个新的强大模型。
[2023.11.21] 🤝 查看由@nateraw创建的replicate演示，他慷慨地支持了我们的研究！
[2023.11.20] 🤗 Hugging Face演示和所有代码和数据集现已可用！欢迎关注 👀 此仓库以获取最新更新。

😮 亮点

尽管数据集中没有图像-视频对，Video-LLaVA仍展示了图像和视频之间的出色交互能力。

💡 简单基线，通过对齐前的投影学习统一的视觉表示

通过将统一的视觉表示绑定到语言特征空间，我们使LLM能够同时在图像和视频上执行视觉推理能力。

🔥 高性能，视频和图像的互补学习

大量实验证明了模态的互补性，与专门为图像或视频设计的模型相比，展示了显著的优越性。

🤗 演示

Gradio网页界面

强烈建议通过以下命令试用我们的网页演示，它包含了Video-LLaVA目前支持的所有功能。我们还在Huggingface Spaces提供了在线演示。

python -m  videollava.serve.gradio_web_server

https://github.com/PKU-YuanGroup/Video-LLaVA/assets/62638829/71ab15ac-105e-4b18-b0b5-e1b35d70607b

命令行界面推理

CUDA_VISIBLE_DEVICES=0 python -m videollava.serve.cli --model-path "LanguageBind/Video-LLaVA-7B" --file "path/to/your/video.mp4" --load-4bit

CUDA_VISIBLE_DEVICES=0 python -m videollava.serve.cli --model-path "LanguageBind/Video-LLaVA-7B" --file "path/to/your/image.jpg" --load-4bit

🚀 主要结果

图像理解

视频理解

🛠️ 要求和安装

Python >= 3.10
Pytorch == 2.0.1
CUDA版本 >= 11.7
安装所需包：

git clone https://github.com/PKU-YuanGroup/Video-LLaVA
cd Video-LLaVA
conda create -n videollava python=3.10 -y
conda activate videollava
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install decord opencv-python git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d

🤖 API

[!警告]
<div align="left"> <b> 🚨 升级transformers以快速访问。 </b> </div>

pip install -U transformers

如果需要安装av，请执行

python -m pip install av

import av
import numpy as np
from transformers import VideoLlavaProcessor, VideoLlavaForConditionalGeneration

def read_video_pyav(container, indices):
    frames = []
    container.seek(0)
    start_index = indices[0]
    end_index = indices[-1]
    for i, frame in enumerate(container.decode(video=0)):
        if i > end_index:
            break
        if i >= start_index and i in indices:
            frames.append(frame)
    return np.stack([x.to_ndarray(format="rgb24") for x in frames])


model = VideoLlavaForConditionalGeneration.from_pretrained("LanguageBind/Video-LLaVA-7B-hf")
processor = VideoLlavaProcessor.from_pretrained("LanguageBind/Video-LLaVA-7B-hf")

prompt = "USER: <video>为什么这个视频很有趣？ ASSISTANT:"
video_path = "你的本地视频路径"
container = av.open(video_path)

# 从视频中均匀采样8帧
total_frames = container.streams.video[0].frames
indices = np.arange(0, total_frames, total_frames / 8).astype(int)
clip = read_video_pyav(container, indices)

inputs = processor(text=prompt, videos=clip, return_tensors="pt")

# 生成
generate_ids = model.generate(**inputs, max_length=80)
print(processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])
>>> 'USER: 为什么这个视频很有趣？ ASSISTANT: 这个视频很有趣是因为婴儿坐在床上看书，这是一个不寻常且有趣的景象。'

我们开源了所有代码。 如果你想在本地加载模型（例如 LanguageBind/Video-LLaVA-7B），可以使用以下代码片段。

图像推理

import torch
from videollava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
from videollava.conversation import conv_templates, SeparatorStyle
from videollava.model.builder import load_pretrained_model
from videollava.utils import disable_torch_init
from videollava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria

def main():
    disable_torch_init()
    image = 'videollava/serve/examples/extreme_ironing.jpg'
    inp = '这张图片有什么不寻常之处？'
    model_path = 'LanguageBind/Video-LLaVA-7B'
    cache_dir = 'cache_dir'
    device = 'cuda'
    load_4bit, load_8bit = True, False
    model_name = get_model_name_from_path(model_path)
    tokenizer, model, processor, _ = load_pretrained_model(model_path, None, model_name, load_8bit, load_4bit, device=device, cache_dir=cache_dir)
    image_processor = processor['image']
    conv_mode = "llava_v1"
    conv = conv_templates[conv_mode].copy()
    roles = conv.roles

    image_tensor = image_processor.preprocess(image, return_tensors='pt')['pixel_values']
    if type(image_tensor) is list:
        tensor = [image.to(model.device, dtype=torch.float16) for image in image_tensor]
    else:
        tensor = image_tensor.to(model.device, dtype=torch.float16)

    print(f"{roles[1]}: {inp}")
    inp = DEFAULT_IMAGE_TOKEN + '\n' + inp
    conv.append_message(conv.roles[0], inp)
    conv.append_message(conv.roles[1], None)
    prompt = conv.get_prompt()
    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
    stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
    keywords = [stop_str]
    stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)

    with torch.inference_mode():
        output_ids = model.generate(
            input_ids,
            images=tensor,
            do_sample=True,
            temperature=0.2,
            max_new_tokens=1024,
            use_cache=True,
            stopping_criteria=[stopping_criteria])

    outputs = tokenizer.decode(output_ids[0, input_ids.shape[1]:]).strip()
    print(outputs)

if __name__ == '__main__':
    main()

视频推理

import torch
from videollava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
from videollava.conversation import conv_templates, SeparatorStyle
from videollava.model.builder import load_pretrained_model
from videollava.utils import disable_torch_init
from videollava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria
def main():
    禁用torch初始化()
    视频 = 'videollava/serve/examples/sample_demo_1.mp4'
    输入 = '为什么这个视频很有趣?'
    模型路径 = 'LanguageBind/Video-LLaVA-7B'
    缓存目录 = 'cache_dir'
    设备 = 'cuda'
    加载_4位, 加载_8位 = True, False
    模型名称 = 从路径获取模型名称(模型路径)
    分词器, 模型, 处理器, _ = 加载预训练模型(模型路径, None, 模型名称, 加载_8位, 加载_4位, 设备=设备, 缓存目录=缓存目录)
    视频处理器 = 处理器['video']
    对话模式 = "llava_v1"
    对话 = 对话模板[对话模式].copy()
    角色 = 对话.角色

    视频张量 = 视频处理器(视频, return_tensors='pt')['pixel_values']
    if type(视频张量) is list:
        张量 = [视频.to(模型.device, dtype=torch.float16) for 视频 in 视频张量]
    else:
        张量 = 视频张量.to(模型.device, dtype=torch.float16)

    print(f"{角色[1]}: {输入}")
    输入 = ' '.join([默认图像令牌] * 模型.get_video_tower().config.num_frames) + '\n' + 输入
    对话.添加消息(对话.角色[0], 输入)
    对话.添加消息(对话.角色[1], None)
    提示 = 对话.获取提示()
    输入ID = 分词器_图像令牌(提示, 分词器, 图像令牌索引, return_tensors='pt').unsqueeze(0).cuda()
    停止字符串 = 对话.分隔符 if 对话.分隔符样式 != 分隔符样式.两个 else 对话.分隔符2
    关键词 = [停止字符串]
    停止条件 = 关键词停止条件(关键词, 分词器, 输入ID)

    with torch.inference_mode():
        输出ID = 模型.generate(
            输入ID,
            images=张量,
            do_sample=True,
            temperature=0.1,
            max_new_tokens=1024,
            use_cache=True,
            stopping_criteria=[停止条件])

    输出 = 分词器.decode(输出ID[0, 输入ID.shape[1]:]).strip()
    print(输出)

if __name__ == '__main__':
    main()