SAHI: 一个轻量级的大规模目标检测与实例分割视觉库

SAHI: 切片辅助超推理技术

SAHI(Slicing Aided Hyper Inference)是一个轻量级的计算机视觉库,专门用于执行大规模目标检测和实例分割任务。它的主要目标是解决实际应用中小目标检测和大图像推理的问题,为开发人员提供了许多有用的视觉工具。

主要特点

SAHI具有以下几个主要特点:

框架无关性:支持多种主流目标检测框架,如YOLOv5、MMDetection、Detectron2等。
切片推理:可以对大图像进行切片,然后在小块上进行推理,最后合并结果,有效提高小目标检测性能。
交互式UI:提供了交互式可视化和检查工具,方便分析结果。
错误分析:包含多种错误分析图表,帮助评估和改进模型性能。
COCO数据集工具:提供了COCO数据集的转换、切片、过滤等实用工具。
视频推理支持:可以对视频进行目标检测和实例分割。

工作原理

SAHI工作原理

SAHI的核心思想是将大图像切成小块,在小块上进行目标检测,然后将结果合并。这种方法可以有效提高小目标的检测性能,同时也能处理超大分辨率的图像。

具体步骤如下:

图像切片:将输入图像切成多个重叠的小块。
目标检测:在每个小块上独立进行目标检测。
结果合并:将各个小块的检测结果合并,去除重复检测。
后处理:应用非极大值抑制等后处理方法,得到最终结果。

这种切片辅助的方法可以显著提高小目标的检测召回率,同时保持较高的精度。

安装与使用

SAHI的安装非常简单,可以通过pip直接安装:

pip install sahi

使用时,SAHI提供了命令行接口和Python API两种方式。以下是一个简单的命令行使用示例:

sahi predict --model_type yolov5 --model_path yolov5s.pt --source image.jpg

这条命令会使用YOLOv5模型对image.jpg进行目标检测,并输出结果。

对于更复杂的使用场景,可以使用Python API:

from sahi import AutoDetectionModel
from sahi.predict import get_sliced_prediction

detection_model = AutoDetectionModel.from_pretrained(
    model_type='yolov5',
    model_path='yolov5s.pt',
    confidence_threshold=0.3,
    device='cuda:0'
)

result = get_sliced_prediction(
    'image.jpg',
    detection_model,
    slice_height=256,
    slice_width=256,
    overlap_height_ratio=0.2,
    overlap_width_ratio=0.2
)

result.export_visuals(export_dir="./results")