pip 从 PyPI 安装 fastdup:
pip install fastdup
更多安装选项见 这里。
初始化并运行 fastdup:
import fastdup fd = fastdup.create(input_dir="IMAGE_FOLDER/") fd.run()
在交互式网页界面中探索结果:
fd.explore()

或者,在静态画廊中可视化结果:
fd.vis.duplicates_gallery() # 重复图像画廊 fd.vis.outliers_gallery() # 异常值画廊 fd.vis.component_gallery() # 连接组件画廊 fd.vis.stats_gallery() # 图像统计画廊(如模糊度、亮度等) fd.vis.similarity_gallery() # 相似图像画廊

fastdup 处理带标签/不带标签的图像或视频格式的数据集,提供了一系列功能:
<div align="center" style="display:flex;flex-direction:column;"> <a href="https://www.visual-layer.com" target="_blank" rel="noopener noreferrer"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/01b4ad7d-e11c-4b71-baf1-51f94dd6f051.png" alt="fastdup" width="1000"> </a> </div>fastdup 与其他类似工具的不同点:
通过交互式示例学习 fastdup 的基础知识。在 GitHub 或 nbviewer 上查看笔记本。更好的是,在 Google Colab 或 Kaggle 上免费运行它们。
<table> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/quickstart"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/a40cb9fd-7a4a-4e76-9dd2-d7462c3b1836.jpg" width="200"> </a> </td> <td rowspan="4"> <b>⚡ 快速入门:</b> 了解如何安装fastdup,加载数据集并分析可能存在的问题,如重复/近似重复、损坏图像、异常值、暗/亮/模糊图像,以及查看视觉上相似的图像集群。如果你是新手,从这里开始! <br> <br> <b>📌 数据集:</b> <a href="https://www.robots.ox.ac.uk/~vgg/data/pets/">Oxford-IIIT Pet</a>. </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/quickstart.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30"> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/quickstart.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25"> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/quickstart.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20"> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/quickstart.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25"> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/finding-removing-duplicates"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/51662696-92d2-4b65-890f-aaf6bbb08964.jpg" width="200"> </a> </td> <td rowspan="4"> <b>🧹 查找和删除重复项:</b> 了解如何分析图像数据集中的重复和近似重复项。 <br> <br> <b>📌 数据集:</b> <a href="https://www.robots.ox.ac.uk/~vgg/data/pets/">Oxford-IIIT Pet</a>. </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/finding-removing-duplicates.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30"> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/finding-removing-duplicates.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25"> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/finding-removing-duplicates.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20"> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/finding-removing-duplicates.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25"> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/finding-removing-mislabels"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4f44a1fa-f4d5-4a89-a7a5-0e1e799a794d.jpg" width="200"> </a> </td> <td rowspan="4"> <b>🖼 查找和删除错误标签:</b> 了解如何分析图像数据集中的潜在错误标签,并导出错误标记图像列表以便进一步检查。 <br> <br> <b>📌 数据集:</b> <a href="https://data.vision.ee.ethz.ch/cvl/datasets_extra/food-101/">Food-101</a>. </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/finding-removing-mislabels.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30"> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/finding-removing-mislabels.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25"> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/finding-removing-mislabels.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20"> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/finding-removing-mislabels.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25"> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/image-search"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/96a64d51-fc60-47ff-9282-258137e35ac6.jpg" width="200"> </a> </td> <td rowspan="4"> <b>🎁 图像相似度搜索:</b> 在大规模图像数据集中进行图像搜索。 <br> <br> <b>📌 数据集:</b> <a href="https://www.kaggle.com/competitions/shopee-product-matching/data">Shopee 产品匹配</a>. </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/image-search.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30"> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/image-search.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25"> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/image-search.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20"> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/image-search.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25"> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/hugging-face-datasets"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/982a846f-ecaa-45c4-b294-b323a9010a62.jpg" width="200" /> </a> </td> <td rowspan="4"><b>🤗 Hugging Face 数据集:</b> 加载并分析来自<a href="https://huggingface.co/datasets">Hugging Face Datasets</a>的数据集。如果你已经在 Hugging Face hub 上托管了数据集,这非常适合。 </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/analyzing-hf-datasets.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30" /> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/analyzing-hf-datasets.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25" /> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/analyzing-hf-datasets.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20" /> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/analyzing-hf-datasets.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25" /> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/embeddings-timm"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/708d4af6-3501-4cc3-a5c3-af693eae1267.jpg" width="200"> </a> </td> <td rowspan="4"> <b> 🧠 TIMM 嵌入:</b> 使用<a href="https://github.com/huggingface/pytorch-image-models">TIMM (PyTorch 图像模型)</a>计算数据集嵌入并运行fastdup以曝光数据集问题。支持CPU和GPU。 </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/embeddings-timm.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30"> </SOURCE_TEXT> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/embeddings-timm.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25"> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/embeddings-timm.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20"> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/embeddings-timm.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25"> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> <tr> <td rowspan="4" width="160"> <a href="https://visual-layer.readme.io/docs/getting-started"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/145c3591-f59b-4ab0-8548-04a718cf2e01.jpg" width="200"> </a> </td> <td rowspan="4"> <b>🦖 ONNX Embeddings:</b> 自带 ONNX 模型。在这个例子中,我们使用<a href="https://github.com/facebookresearch/dinov2">DINOv2</a>模型来提取图像的特征向量。可以在 CPU 上运行。 </td> <td align="center" width="80"> <a href="https://nbviewer.org/github/visual-layer/fastdup/blob/main/examples/embeddings-onnx-dinov2.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/394a513c-9932-4611-9167-727b052ce788.png" height="30"> </a> </td> </tr> <tr> <td align="center"> <a href="https://github.com/visual-layer/fastdup/blob/main/examples/embeddings-onnx-dinov2.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d483812-0dcb-40ab-8069-2abe698e0985.png" height="25"> </a> </td> </tr> <tr> <td align="center"> <a href="https://colab.research.google.com/github/visual-layer/fastdup/blob/main/examples/embeddings-onnx-dinov2.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c333c690-d0db-471d-ab07-949a6bba1b4c.png" height="20"> </a> </td> </tr> <tr> <td align="center"> <a href="https://kaggle.com/kernels/welcome?src=https://github.com/visual-layer/fastdup/blob/main/examples/embeddings-onnx-dinov2.ipynb"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/b2f574bf-e0c7-4e81-a13e-b9340ebdbef6.png" height="25"> </a> </td> </tr> <!-- ------------------------------------------------------------------- --> </table> 查看更多[示例](EXAMPLES.md)。通过以下渠道获得 fastdup 团队或社区成员的帮助:
<a href="https://discord.gg/tkYHJCA7mb" target="_blank" rel="noopener noreferrer"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/f8fc2323-c7fc-4f89-95f6-dfb9e3910555.png" alt="徽标"> </a> <a href="https://visual-layer.readme.io/discuss" target="_blank" rel="noopener noreferrer"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/eb498b98-fb68-44f0-8ea0-49bfdbd9b080.png" alt="徽标"> </a> <a href="https://github.com/visual-layer/fastdup/issues/new/choose" target="_blank" rel="noopener noreferrer"> <img src="https://yellow-cdn.veclightyear.com/35dd4d3f/ddd1ddc2-a50c-4cce-a132-ffc084595895.png" alt="GitHub 问题"> </a>社区贡献的 fastdup 博客文章:
<table> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/c6620346-36ed-4285-aa77-33219f026d3e.jpg" width="200"></td> <td> <a href="https://medium.com/@atahanbulus.w/deploying-aws-lambda-functions-with-docker-container-by-using-custom-base-image-2d110d307f9b">使用自定义基础映像通过 Docker 容器部署 AWS Lambda 函数</a><br> 🖋️ <a href="https://medium.com/@atahanbulus.w">atahan bulus</a> • 🗓 2023 年 9 月 16 日 </td> </tr> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/63a624a7-521d-45bb-bb76-b00342d79d72.jpg" width="200"></td> <td> <a href="https://medium.com/@daniel-klitzke/cleaning-image-classification-datasets-with-fastdup-and-renumics-spotlight-e68deb4730a3">使用 fastdup 和 Renumics Spotlight 清理图像分类数据集</a><br> 🖋️ <a href="https://medium.com/@daniel-klitzke">Daniel Klitzke</a> • 🗓 2023 年 9 月 4 日 </td> </tr> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/bda2d6cd-3e13-4f8d-9766-e53e1122d503.jpg" width="200"></td> <td> <a href="https://blog.roboflow.com/how-to-reduce-dataset-size-computer-vision/">Roboflow: 如何在不降低准确度的情况下减少数据集大小</a><br> 🖋️ <a href="https://blog.roboflow.com/author/arty/">Arty Ariuntuya</a> • 🗓 2023 年 8 月 9 日 </td> </tr> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4d286a92-542a-4d65-87bc-f768782c2d55.jpg" width="200"></td> <td> <a href="https://alexlanseedoo.medium.com/the-weighty-significance-of-data-cleanliness-eb03dce1d0f8">数据清洁的重要性不可低估 — 或者正如我喜欢称呼的那样,“清洁即靠近模型清洁”</a><br> 🖋️ <a href="https://alexlanseedoo.medium.com/">Alexander Lan</a> • 🗓 2023 年 3 月 9 日 </td> </tr> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/9b2ff42b-659e-42bd-aa41-873d837cf2a4.gif" width="200"></td> <td> <a href="https://dicksonneoh.com/blog/clean_up_your_digital_life/">清理你的数字生活:我在几分钟内找到 1929 张完全相同的图片、黑暗、明亮和模糊的照片,免费。</a><br> 🖋️ <a href="https://medium.com/@dickson.neoh">Dickson Neoh</a> • 🗓 2023 年 2 月 23 日 </td> </tr> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/ac8c77e3-f9f3-4000-b484-17308cd0730c.gif" width="200"></td> <td> <a href="https://dicksonneoh.com/portfolio/fastdup_manage_clean_curate/">fastdup: 一款强大的工具,可以在 CPU 上大规模管理、清理和策划视觉数据 - 免费。</a><br> 🖋️ <a href="https://medium.com/@dickson.neoh">Dickson Neoh</a> • 🗓 2023 年 1 月 3 日 </td> </tr> <tr> <td><img src="https://yellow-cdn.veclightyear.com/35dd4d3f/eac11c11-4f61-475f-ab94-2091fe7e62ec.jpg" width="200"></td> <td> <a href="https://towardsdatascience.com/master-data-integrity-to-clean-your-computer-vision-datasets-df432cf9e596">掌握数据完整性以清理你的计算机视觉数据集。</a><br> 🖋️ <a href="https://pauliusztin.medium.com/">Paul lusztin</a> • 🗓 2022 年 12 月 19 日 </td> </tr> </table>用户反馈:


Visual Layer 提供大规模管理、清理和策划视觉数据的商业服务。
免费注册。
https://github.com/visual-layer/fastdup/assets/6821286/57f13d77-0ac4-4c74-8031-07fae87c5b00
不确定?无需注册即可与 Visual Layer Cloud 公共数据集 互动。
我们新增了使用 Sentry 收集的实验性崩溃报告。
我们不会收集用户特定的信息如文件夹名称、用户名、图片名称、图片内容等。 我们收集与 fastdup 内部操作和性能统计相关的数据,如图像总数、每张图像的平均运行时间、总剩余内存、总剩余磁盘空间、核心数量等。
这有助于我们识别和解决稳定性问题,从而提高 fastdup 的整体可靠性。 数据收集的代码在此 here。在 MAC 上我们使用 Google crashpad 报告崩溃。
用户可以通过以下方法选择退出实验性崩溃报告系统:
SENTRY_OPT_OUT 的环境变量run() 时使用 turi_param='run_sentry=0'fastdup 授权协议为 创作共用署名-非商业性使用-禁止演绎 4.0 国际 公共许可证。
如需进一步信息或有关许可证的询问,请联系 info@visual-layer.com 或参见 LICENSE 文件。
<div align="right"><a href="#top">🔝 返回顶部</a></div>

AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件 。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频


实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。


选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


最强AI数据分析助手
小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。


像人一样思考的AI智能体
imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。


AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号