imgaug:强大的图像增强库

imgaug是一个用于机器学习实验的图像增强库,它提供了丰富的图像增强功能,可以帮助研究人员和开发者轻松地对训练数据进行扩充和增强。本文将详细介绍imgaug的主要特性、使用方法以及一些实际应用案例。

主要特性

imgaug具有以下几个突出的特点:

丰富的增强技术

imgaug支持多种图像增强技术,包括但不限于:

几何变换:旋转、缩放、平移、剪切等
颜色变换:亮度、对比度、饱和度调整等
像素级操作:高斯噪声、椒盐噪声、模糊等
图像合成:图像叠加、混合等

这些技术可以单独使用,也可以组合使用,为数据增强提供了极大的灵活性。

简单易用的接口

imgaug提供了简洁直观的API,只需几行代码就可以定义复杂的增强序列:

import imgaug.augmenters as iaa

seq = iaa.Sequential([
    iaa.Fliplr(0.5), # 水平翻转
    iaa.GaussianBlur(sigma=(0, 3.0)) # 高斯模糊
])

images_aug = seq(images=images)

支持多种数据类型

除了图像,imgaug还支持对以下数据类型进行增强:

关键点/地标
边界框
多边形
分割图
热力图

这使得imgaug可以应用于更广泛的计算机视觉任务。

随机性和可重复性

imgaug允许为每个增强操作定义随机参数范围,同时通过设置随机种子保证结果的可重复性。

多核处理支持

imgaug支持在多个CPU核心上并行处理图像,大大提高了处理速度。

安装和基本使用

可以通过pip安装imgaug:

pip install imgaug

下面是一个简单的使用示例:

import numpy as np
import imgaug as ia
import imgaug.augmenters as iaa

# 定义增强序列
seq = iaa.Sequential([
    iaa.Fliplr(0.5), # 50%的概率水平翻转
    iaa.Crop(percent=(0, 0.1)), # 随机裁剪
    iaa.Sometimes(0.5,
        iaa.GaussianBlur(sigma=(0, 0.5))
    ),
    iaa.LinearContrast((0.75, 1.5)),
    iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5),
    iaa.Multiply((0.8, 1.2), per_channel=0.2),
    iaa.Affine(
        scale={"x": (0.8, 1.2), "y": (0.8, 1.2)},
        translate_percent={"x": (-0.2, 0.2), "y": (-0.2, 0.2)},
        rotate=(-25, 25),
        shear=(-8, 8)
    )
], random_order=True)

# 读取图像
images = np.array(
    [ia.quokka(size=(64, 64)) for _ in range(32)],
    dtype=np.uint8
)

# 应用增强
images_aug = seq(images=images)

这个例子展示了如何定义一个包含多种增强技术的序列,并将其应用到一批图像上。

实际应用案例

图像分类

在训练图像分类模型时,使用imgaug可以轻松扩充训练数据集:

import imgaug.augmenters as iaa

# 定义增强序列
seq = iaa.Sequential([
    iaa.Fliplr(0.5),
    iaa.Crop(percent=(0, 0.1)),
    iaa.Sometimes(0.5, iaa.GaussianBlur(sigma=(0, 0.5))),
    iaa.LinearContrast((0.75, 1.5))
])

# 在训练循环中
for epoch in range(num_epochs):
    for batch in data_loader:
        images, labels = batch
        images_aug = seq(images=images)
        # 使用增强后的图像训练模型
        ...

目标检测

imgaug支持对边界框进行相应的变换:

import imgaug as ia
from imgaug.augmentables.bbs import BoundingBox, BoundingBoxesOnImage

# 定义增强序列
seq = iaa.Sequential([
    iaa.Affine(rotate=(-25, 25))
])

# 应用增强
image = ia.quokka()
bbs = BoundingBoxesOnImage([
    BoundingBox(x1=65, y1=100, x2=200, y2=150),
    BoundingBox(x1=150, y1=80, x2=200, y2=130)
], shape=image.shape)

image_aug, bbs_aug = seq(image=image, bounding_boxes=bbs)

语义分割

对于语义分割任务,可以同时增强图像和分割图:

import imgaug as ia
import imgaug.augmenters as iaa

# 定义增强序列
seq = iaa.Sequential([
    iaa.Fliplr(0.5),
    iaa.Affine(rotate=(-10, 10), scale=(0.9, 1.1))
])

# 应用增强
images = [ia.quokka(size=(128, 128)) for _ in range(5)]
segmaps = [ia.quokka_segmentation_map(size=(128, 128)) for _ in range(5)]

images_aug, segmaps_aug = seq(images=images, segmentation_maps=segmaps)