mask2former-swin-large-cityscapes-panoptic

mask2former-swin-large-cityscapes-panoptic 项目介绍

项目背景

mask2former-swin-large-cityscapes-panoptic 是基于 Mask2Former 模型的一个具体应用，专注于城市景观全景分割。项目利用了市面上流行的数据集“Cityscapes”进行训练，致力于优化图片分割技术。Mask2Former 是在论文《Masked-attention Mask Transformer for Universal Image Segmentation》中提出的，并且首次在 GitHub 上得以发布。

模型介绍

Mask2Former 模型旨在通过预测一组掩码及其对应标签来处理实例分割、语义分割和全景分割任务。该模型使用一种统一的方法处理这三种任务，将所有任务视作实例分割，利用多尺度可变形注意力 Transformer 来替代传统像素解码器，从而提高性能和效率。其特点包括：

用更高级的多尺度可变形注意力 Transformer 替代传统的像素解码器。
采用带掩码注意力的 Transformer 解码器提高性能而不增加计算开销。
通过在子抽样点而不是整个掩码上计算损失，提高训练效率。

这种方法使得 Mask2Former 在性能和效率上均优于之前的最先进技术 MaskFormer。

使用方法

mask2former-swin-large-cityscapes-panoptic 模型的主要用途是进行全景分割。用户可以根据自身情况选择不同任务上已调优的 Mask2Former 版本。

使用该模型的基本步骤如下（代码示例）：

import requests
import torch
from PIL import Image
from transformers import AutoImageProcessor, Mask2FormerForUniversalSegmentation

# 加载在 Cityscapes 全景分割上微调的 Mask2Former 模型
processor = AutoImageProcessor.from_pretrained("facebook/mask2former-swin-large-cityscapes-panoptic")
model = Mask2FormerForUniversalSegmentation.from_pretrained("facebook/mask2former-swin-large-cityscapes-panoptic")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# 模型预测 class_queries_logits 和 masks_queries_logits
class_queries_logits = outputs.class_queries_logits
masks_queries_logits = outputs.masks_queries_logits

# 可以将输出传递给处理器进行后处理
result = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]
predicted_panoptic_map = result["segmentation"]