精选图像分类AI工具和开源项目合集 | 提供多样化选择

NSFWJS: 客户端上的不当内容检测利器

NSFWJS: 客户端上的不当内容检测利器

NSFWJS是一个简单而强大的JavaScript库,可以帮助开发者在客户端浏览器中快速识别不适当的图像内容。它基于TensorFlow.js,准确率高达90%以上,且持续在提升中。

NSFWJSTensorFlow.js机器学习图像分类内容审核Github开源项目
MindCV: 基于MindSpore的计算机视觉工具箱

MindCV: 基于MindSpore的计算机视觉工具箱

MindCV是一个开源的计算机视觉研究和开发工具箱,基于MindSpore深度学习框架开发。它集成了一系列经典和最先进的视觉模型,如ResNet和SwinTransformer,以及它们的预训练权重和训练策略。

MindCV计算机视觉深度学习框架预训练模型图像分类Github开源项目
LITv2: 快速视觉Transformer与HiLo注意力机制

LITv2: 快速视觉Transformer与HiLo注意力机制

LITv2是一种简单高效的视觉Transformer模型,通过创新的HiLo注意力机制,在各种模型规模下都能以更快的速度实现优于现有最先进方法的性能。本文将详细介绍LITv2的设计理念、核心创新点以及在多项视觉任务上的卓越表现。

LITv2HiLo注意力视觉Transformer图像分类目标检测Github开源项目
C-Tran:大温哥华地区的公共交通系统

C-Tran:大温哥华地区的公共交通系统

C-Tran是服务于华盛顿州克拉克县的公共交通机构,为温哥华及周边地区提供巴士、快速公交、通勤铁路等多种公共交通服务,致力于为居民提供安全、便捷、可靠的出行选择。

图像分类Transformers多标签分类深度学习计算机视觉Github开源项目
FocalNet: 聚焦模块化网络的突破性创新

FocalNet: 聚焦模块化网络的突破性创新

FocalNet是微软研究院提出的一种新型视觉backbone网络,通过创新的焦点模块化机制取代了自注意力机制,在多项视觉任务上取得了卓越的性能,特别是在COCO目标检测任务上以更小的模型和数据规模达到了新的SOTA水平。

FocalNets图像分类目标检测语义分割卷积神经网络Github开源项目
Computer Vision in the Wild: 开启计算机视觉的新纪元

Computer Vision in the Wild: 开启计算机视觉的新纪元

本文深入探讨了Computer Vision in the Wild (CVinW)这一新兴的计算机视觉研究领域,介绍了其核心理念、主要特点和最新进展,展望了CVinW未来的发展方向和潜在应用。

计算机视觉迁移学习预训练模型多模态图像分类Github开源项目
MIC: 提升无监督域适应的上下文增强方法

MIC: 提升无监督域适应的上下文增强方法

探索MIC(Masked Image Consistency)如何通过学习目标域的空间上下文关系来增强无监督域适应,显著提升图像分类、语义分割和目标检测等视觉识别任务的性能。

MIC域适应语义分割图像分类目标检测Github开源项目
InternImage:探索具有可变形卷积的大规模视觉基础模型

InternImage:探索具有可变形卷积的大规模视觉基础模型

InternImage是一个强大的视觉主干网络,通过使用可变形卷积实现了卓越的性能。它在多个计算机视觉任务中取得了SOTA结果,成为目前最强大的开源视觉模型之一。

InternImage大规模视觉模型目标检测图像分类语义分割Github开源项目
MambaOut: 视觉识别真的需要Mamba模型吗?

MambaOut: 视觉识别真的需要Mamba模型吗?

MambaOut是一个基于门控CNN的轻量级视觉模型,在ImageNet分类任务上超越了Mamba等模型。本文深入探讨了MambaOut的设计思路、性能表现及其对视觉领域的启示。

MambaOut计算机视觉图像分类神经网络深度学习Github开源项目
InceptionNeXt: 当Inception遇上ConvNeXt的革命性突破

InceptionNeXt: 当Inception遇上ConvNeXt的革命性突破

InceptionNeXt融合了Inception和ConvNeXt的优点,通过创新的卷积分解方法,在保持高精度的同时大幅提升了模型速度,为计算机视觉领域带来了新的可能性。

InceptionNeXtConvNeXt卷积神经网络图像分类深度学习Github开源项目
FastViT: 快速混合视觉Transformer的结构重参数化

FastViT: 快速混合视觉Transformer的结构重参数化

FastViT是一种新型的视觉Transformer模型,通过结构重参数化技术实现了高效推理。该模型在ImageNet分类任务上取得了优秀的准确率和速度权衡,为移动设备上的计算机视觉应用提供了新的选择。

FastViT视觉Transformer图像分类模型性能结构重参数化Github开源项目
ARES - 先进的对抗性机器学习库

ARES - 先进的对抗性机器学习库

ARES是一个专注于评估图像分类和目标检测模型对抗性鲁棒性的Python库,提供了多种攻击方法、防御机制和分布式训练/测试功能。

ARES 2.0对抗性机器学习图像分类目标检测鲁棒性训练Github开源项目
Vim: 高效而强大的文本编辑器

Vim: 高效而强大的文本编辑器

Vim是一款高度可配置的文本编辑器,专为高效创建和修改各种文本而设计。本文将深入介绍Vim的特性、使用方法及其在开发者社区中的重要地位。

Vision Mamba视觉表示学习状态空间模型图像分类深度学习Github开源项目
GroupMixFormer:推动视觉 Transformer 的新进展

GroupMixFormer:推动视觉 Transformer 的新进展

GroupMixFormer 是一种基于创新的 Group-Mix Attention (GMA) 机制的强大视觉 Transformer 模型,能够同时捕捉不同粒度的 token 和 token 组之间的相关性,在图像分类、目标检测和语义分割等任务中取得了优异的性能。

GroupMixFormer视觉Transformer自注意力机制图像分类计算机视觉Github开源项目
PyTorch-Encoding: 一个强大的计算机视觉工具包

PyTorch-Encoding: 一个强大的计算机视觉工具包

PyTorch-Encoding 是由张航博士创建的开源计算机视觉工具包,为深度学习研究提供了丰富的模型和算法实现,包括ResNeSt、上下文编码等前沿技术,在图像分类和语义分割等任务上取得了出色的性能。

PyTorch-Encoding语义分割深度学习ResNeSt图像分类Github开源项目
AlphaTree-graphic-deep-neural-network: 从新手到深度学习应用工程师的AI路线图

AlphaTree-graphic-deep-neural-network: 从新手到深度学习应用工程师的AI路线图

一个全面的深度学习和AI应用路线图项目,涵盖了从基础概念到前沿技术的各个方面,旨在帮助读者系统性地学习和掌握深度学习知识与技能。

AlphaTree深度学习神经网络图像分类模型改进Github开源项目
Metalhead.jl: 为Flux.jl提供强大的计算机视觉模型

Metalhead.jl: 为Flux.jl提供强大的计算机视觉模型

Metalhead.jl是一个为Julia语言的深度学习框架Flux.jl提供计算机视觉模型的开源库。它实现了多种最先进的图像分类和其他计算机视觉任务的模型架构,为Julia用户提供了便捷的深度学习工具。

Metalhead.jl机器学习图像分类Flux.jl模型构建Github开源项目
VisionScript: 一种高级计算机视觉编程语言

VisionScript: 一种高级计算机视觉编程语言

VisionScript是一种为执行常见计算机视觉任务而设计的抽象编程语言。它提供了简单的语法来运行对象检测、分类和分割模型,使得计算机视觉任务变得更加简单和高效。

VisionScript计算机视觉Python对象检测图像分类Github开源项目
MambaVision:融合Mamba和Transformer的高效视觉骨干网络

MambaVision:融合Mamba和Transformer的高效视觉骨干网络

MambaVision是一种新型的视觉骨干网络,它巧妙地结合了Mamba和Transformer的优势,在保持高精度的同时大幅提升了推理速度和内存效率,为计算机视觉任务带来了新的解决方案。

MambaVision深度学习计算机视觉图像分类Hugging FaceGithub开源项目
EasyCV: 阿里巴巴开源的一站式计算机视觉工具箱

EasyCV: 阿里巴巴开源的一站式计算机视觉工具箱

EasyCV是阿里巴巴开源的基于PyTorch的一站式计算机视觉工具箱,主要聚焦于自监督学习、Transformer模型以及图像分类、度量学习、目标检测、姿态估计等主要CV任务。

EasyCVPyTorch图像分类目标检测自监督学习Github开源项目