sam2-hiera-large

sam2-hiera-large项目介绍

sam2-hiera-large是Facebook AI Research (FAIR)开发的一个强大的视觉分割基础模型。这个项目是SAM 2（Segment Anything in Images and Videos）的一部分，旨在解决图像和视频中的可提示视觉分割问题。

项目背景

SAM 2是对原始SAM（Segment Anything Model）的重大升级和扩展。它不仅能够处理静态图像，还能对视频进行分割，这使得它在计算机视觉领域具有更广泛的应用前景。

主要特点

多模态处理：sam2-hiera-large可以同时处理图像和视频数据。
高效性能：该模型采用了先进的架构，能够快速准确地进行分割任务。
灵活性：支持多种输入提示，如点击、框选等，使用户可以更精确地指定感兴趣的区域。
开源可用：项目代码已在GitHub上公开发布，方便研究人员和开发者使用和改进。

使用方法

sam2-hiera-large模型的使用非常直观。对于图像处理，用户可以使用SAM2ImagePredictor类；对于视频处理，则可以使用SAM2VideoPredictor类。

图像处理示例

import torch
from sam2.sam2_image_predictor import SAM2ImagePredictor

predictor = SAM2ImagePredictor.from_pretrained("facebook/sam2-hiera-large")

with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
    predictor.set_image(<your_image>)
    masks, _, _ = predictor.predict(<input_prompts>)

视频处理示例

import torch
from sam2.sam2_video_predictor import SAM2VideoPredictor

predictor = SAM2VideoPredictor.from_pretrained("facebook/sam2-hiera-large")

with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
    state = predictor.init_state(<your_video>)
    
    # 添加新的提示并立即获取同一帧上的输出
    frame_idx, object_ids, masks = predictor.add_new_points_or_box(state, <your_prompts>)
    
    # 在视频中传播提示以获取整个视频的masklets
    for frame_idx, object_ids, masks in predictor.propagate_in_video(state):
        # 处理每一帧的结果