videomae-base

VideoMAE-base项目介绍

项目概述

VideoMAE-base是一个基于自监督学习的视频预训练模型。它由Tong等人在论文《VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training》中提出，并首次在GitHub上发布。这个模型是将遮蔽自编码器(Masked Autoencoders, MAE)的概念扩展到视频领域的创新尝试。

模型架构

VideoMAE的架构与标准的视觉变换器(Vision Transformer, ViT)非常相似。它包括一个编码器和一个解码器，其中解码器用于预测被遮蔽patch的像素值。模型将视频输入处理为固定大小(16x16分辨率)的patch序列，并对这些patch进行线性嵌入。此外，它还在序列开头添加了一个[CLS]标记，用于分类任务，并在输入Transformer编码器层之前添加了固定的正弦/余弦位置嵌入。

预训练过程

VideoMAE-base模型在Kinetics-400数据集上进行了1600轮的自监督预训练。通过预训练，模型学习了视频的内部表示，这些表示可以用于提取对下游任务有用的特征。例如，对于带标签的视频数据集，可以在预训练编码器的基础上添加一个线性层来训练标准分类器。

使用方法

VideoMAE-base模型主要用于预测视频中被遮蔽patch的像素值，但它的主要目的是为下游任务进行微调。用户可以使用Hugging Face的transformers库轻松加载和使用这个模型。以下是一个简单的代码示例，展示了如何使用该模型预测随机遮蔽patch的像素值：

from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch

# 准备输入数据
num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))

# 加载处理器和模型
processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base")

# 处理输入
pixel_values = processor(video, return_tensors="pt").pixel_values

# 创建遮蔽位置
num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()

# 模型推理
outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss