NSFWJS是一个简单而强大的JavaScript库,可以帮助开发者在客户端浏览器中快速识别不适当的图像内容。它基于TensorFlow.js,准确率高达90%以上,且持续在提升中。
MindCV是一个开源的计算机视觉研究和开发工具箱,基于MindSpore深度学习框架开发。它集成了一系列经典和最先进的视觉模型,如ResNet和SwinTransformer,以及它们的预训练权重和训练策略。
LITv2是一种简单高效的视觉Transformer模型,通过创新的HiLo注意力机制,在各种模型规模下都能以更快的速度实现优于现有最先进方法的性能。本文将详细介绍LITv2的设计理念、核心创新点以及在多项视觉任务上的卓越表现。
C-Tran是服务于华盛顿州克拉克县的公 共交通机构,为温哥华及周边地区提供巴士、快速公交、通勤铁路等多种公共交通服务,致力于为居民提供安全、便捷、可靠的出行选择。
FocalNet是微软研究院提出的一种新型视觉backbone网络,通过创新的焦点模块化机制取代了自注意力机制,在多项视觉任务上取得了卓越的性能,特别是在COCO目标检测任务上以更小的模型和数据规模达到了新的SOTA水平。
本文深入探讨了Computer Vision in the Wild (CVinW)这一新兴的计算机视觉研究领域,介绍了其核心理念、主要特点和最新进展,展望了CVinW未来的发展方向和潜在应用。
探索MIC(Masked Image Consistency)如何通过学习目标域的空间上下文关系来增强无监督域适应,显著提升图像分类、语义分割和目标检测等视觉识别任务的性能。
InternImage是一个强大的视觉主干网络,通过使用可变形卷积实现了卓越的性能。它在多个计算机视觉任务中取得了SOTA结果,成为目前最强大的开源视觉模型之一。
MambaOut是一个基于门控CNN的轻量级视觉模型,在ImageNet分类任务上超越了Mamba等模型。本文深入探讨了MambaOut的设计思路、性能表现及其对视觉领域的启示。
InceptionNeXt融合了Inception和ConvNeXt的优点,通过创新的卷积分解方法,在保持高精度的同时大幅提升了模型速度,为计算机视觉领域带来了新的可能性。
FastViT是一种新型的视觉Transformer模型,通过结构重参数化技术实现了高效推理。该模型在ImageNet分类任务上取得了优秀的准确率和速度权衡,为移动设备上的计算机视觉应用提供了新的选择。
ARES是一个专注于评估图像分类和目标检测模型对抗性鲁棒性的Python库,提供了多种攻击方法、防御机制和分布式训练/测试功能。
Vim是一款高度可配置的文本编辑器,专为高效创建和修改各种文本而设计。本文将深入介绍Vim的特性、使用方法及其在开发者社区中的重要地位。
GroupMixFormer 是一种基于创新的 Group-Mix Attention (GMA) 机制的强大视觉 Transformer 模型,能够同时捕捉不同粒度的 token 和 token 组之间的相关性,在图像分类、目标检测和语义分割等任务中取得了优异的性能。
PyTorch-Encoding 是由张航博士创建的开源计算机视觉工具包,为深度学习研究提供了丰富的模型和算法实现,包括ResNeSt、上下文编码等前沿技术,在图像分类和语义分割等任务上取得了出色的性能。
一个全面的深度学习和AI应用路线图项目,涵盖了从基础概念到前沿技术的各个方面,旨在帮助读者系统性地学习和掌握深度学习知识与技能。
Metalhead.jl是一个为Julia语言的深度学习框架Flux.jl提供计算机视觉模型的开源库。它实现了多种最先进的图像分类和其他计算机视觉任务的模型架构,为Julia用户提供了便捷 的深度学习工具。
VisionScript是一种为执行常见计算机视觉任务而设计的抽象编程语言。它提供了简单的语法来运行对象检测、分类和分割模型,使得计算机视觉任务变得更加简单和高效。
MambaVision是一种新型的视觉骨干网络,它巧妙地结合了Mamba和Transformer的优势,在保持高精度的同时大幅提升了推理速度和内存效率,为计算机视觉任务带来了新的解决方案。
EasyCV是阿里巴巴开源的基于PyTorch的一站式计算机视觉工具箱,主要聚焦于自监督学习、Transformer模型以及图像分类、度量学习、目标检测、姿态估计等主要CV任务。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号