cleanvision

CleanVision 自动检测图像数据集中的潜在问题，如模糊、曝光不足/过度、（近似）重复等图像。这个以数据为中心的 AI 工具包是任何计算机视觉项目的快速第一步，用于发现数据集中的问题，这些问题需要在应用机器学习之前解决。 CleanVision 非常简单 —— 只需运行几行相同的 Python 代码就可以审核任何图像数据集！

安装

pip install cleanvision

快速开始

下载示例数据集（可选）。或者直接使用你拥有的任何图像文件集合。

wget -nc 'https://cleanlab-public.s3.amazonaws.com/CleanVision/image_files.zip'

运行 CleanVision 来审核图像。

from cleanvision import Imagelab

# 指定包含数据集图像文件的文件夹路径
imagelab = Imagelab(data_path="FOLDER_WITH_IMAGES/")

# 自动检查数据集中预定义的问题列表
imagelab.find_issues()

# 生成一份关于数据集中发现问题的简洁报告
imagelab.report()

CleanVision 可以诊断多种类型的问题，但你也可以只检查特定的问题。

issue_types = {"dark": {}, "blurry": {}}

imagelab.find_issues(issue_types=issue_types)

# 只生成指定 issue_types 的报告
imagelab.report(issue_types=issue_types)

清理你的数据以获得更好的计算机视觉效果

机器学习模型的质量取决于用于训练它们的数据质量，但在大型数据集中手动识别所有低质量数据是很困难的。CleanVision 帮助你自动识别图像数据集中潜在的常见数据问题。

这个包目前可以检测原始图像本身的问题，使其成为任何计算机视觉任务的有用工具，如：分类、分割、目标检测、姿态估计、关键点检测、生成建模等。要检测图像数据标签中的问题，你可以使用 cleanlab 包。

在任何图像文件集合中（支持大多数格式），CleanVision 可以检测以下类型的问题：

	问题类型	描述	问题标识	示例
1	完全重复	相互完全相同的图像	exact_duplicates
2	近似重复	视觉上几乎相同的图像	near_duplicates
3	模糊	细节不清晰（失焦）的图像	blurry
4	低信息量	缺乏内容的图像（像素值熵很低）	low_information
5	过暗	异常黑暗的图像（曝光不足）	dark
6	过亮	异常明亮的图像（曝光过度）	light
7	灰度	缺乏颜色的图像	grayscale
8	异常宽高比	宽高比不寻常的图像（过于窄/宽）	odd_aspect_ratio
9	异常大小	与数据集中其他图像相比异常大或小的图像	odd_size	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/90b26c4f-a4ec-4809-a533-78b6ee38a8fd.png" width=20% height=20%>

CleanVision 支持 Linux、macOS 和 Windows，运行于 Python 3.7+。

加入我们的社区

学习的最佳场所是我们的 Slack 社区。加入那里的讨论，了解人们如何使用这个库，讨论即将推出的功能，或寻求私人支持。
需要 CleanVision 的专业帮助？加入我们的 #help Slack 频道并在那里给我们留言，或通过电子邮件联系我们：team@cleanlab.ai
有兴趣贡献？请查看贡献指南。一个简单的起点是考虑标记为 good first issue 的问题，或者直接在 Slack 上联系我们。我们欢迎您帮助构建数据中心计算机视觉的标准开源库！
准备开始添加自己的代码？请查看开发指南。
遇到问题？搜索现有问题或提交新问题。
对数据中心计算机视觉的未来有想法？查看我们的活跃/计划中的项目以及我们需要您帮助的地方。