精选计算机视觉工具:AI应用、网站与开源项目大全

Total-Recon: 一种用于具身视角合成的可变形场景重建技术

Total-Recon: 一种用于具身视角合成的可变形场景重建技术

Total-Recon是一种创新的可变形场景重建技术,能够从单个长视频中重建复杂的动态场景,并支持多种新颖视角的合成,包括第一人称视角、第三人称跟随视角等。这项技术在ICCV 2023会议上发表,为具身AI和虚拟现实等领域带来了新的可能性。

可变形场景重建视角合成3D重建计算机视觉ICCV 2023Github开源项目
YOLOv6: 一个面向工业应用的高效目标检测框架

YOLOv6: 一个面向工业应用的高效目标检测框架

YOLOv6是美团开源的一款专为工业应用而设计的单阶段目标检测框架,在速度和精度上取得了优异的平衡,成为实时应用的理想选择。

YOLOv6目标检测深度学习计算机视觉模型训练Github开源项目
VISSL: 推动自监督视觉学习研究的开源利器

VISSL: 推动自监督视觉学习研究的开源利器

VISSL是Facebook AI Research Lab (FAIR)开发的一个强大的计算机视觉库,专注于最先进的自监督学习研究。它提供了可扩展、模块化的组件,旨在加速自监督学习任务的设计和表征学习的评估过程。本文深入探讨了VISSL的特性、应用场景及其在计算机视觉领域的重要意义。

VISSL自监督学习计算机视觉PyTorch模型库Github开源项目
车道线检测技术综述:从传统方法到深度学习

车道线检测技术综述:从传统方法到深度学习

本文全面介绍了车道线检测技术的发展历程,梳理了从传统计算机视觉方法到深度学习方法的演进过程,并对当前研究热点和未来发展趋势进行了展望。

车道检测深度学习计算机视觉自动驾驶论文综述Github开源项目
VanillaNet: 极简主义在深度学习中的力量

VanillaNet: 极简主义在深度学习中的力量

VanillaNet是一种创新的神经网络架构,专注于简洁性和高效性。本文深入探讨了VanillaNet的设计理念、架构特点、性能表现以及在计算机视觉领域的应用前景。

VanillaNet深度学习神经网络计算机视觉模型效率Github开源项目
Pi-CARD:基于树莓派的智能语音助手

Pi-CARD:基于树莓派的智能语音助手

Pi-CARD是一款完全运行在树莓派上的AI语音助手,具有对话、拍照和图像识别等功能。它采用开源模型和本地部署,保护用户隐私的同时提供智能交互体验。本文详细介绍了Pi-CARD的功能特点、硬件配置、软件设置以及性能优化等内容。

Raspberry PiAI助手语音交互离线系统计算机视觉Github开源项目
DiffMorpher: 释放扩散模型在图像变形中的潜力

DiffMorpher: 释放扩散模型在图像变形中的潜力

DiffMorpher是一种创新的图像变形技术,利用预训练的扩散模型实现两张图像之间的平滑过渡。该方法无需人工标注,能自动捕捉语义对应关系,为图像变形任务提供了一种全新的解决方案。

DiffMorpher图像变形扩散模型深度学习计算机视觉Github开源项目
Depth Anything: 革新单目深度估计的基础模型

Depth Anything: 革新单目深度估计的基础模型

Depth Anything是一个基于大规模未标注数据训练的单目深度估计基础模型,通过创新的技术方案和巨大的训练数据规模,显著提升了深度估计的准确性和泛化能力,为计算机视觉领域带来了新的突破。

Depth Anything深度估计计算机视觉人工智能图像处理Github开源项目
Panda-70M: 一个大规模高质量视频-文本配对数据集的创新与应用

Panda-70M: 一个大规模高质量视频-文本配对数据集的创新与应用

Panda-70M是一个包含7000万个高质量视频-文本配对的大规模数据集,由Snap Research团队开发。本文详细介绍了Panda-70M的特点、收集过程、应用场景以及对计算机视觉领域的重要意义。

Panda-70M视频描述数据集计算机视觉深度学习Github开源项目
YOLOv9:对象检测技术的重大飞跃

YOLOv9:对象检测技术的重大飞跃

YOLOv9引入了可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)等创新技术,在效率、准确性和适应性方面实现了显著提升,为实时对象检测树立了新的标杆。

YOLOv9目标检测深度学习计算机视觉神经网络Github开源项目
OBBDetection: 一个强大的定向目标检测工具箱

OBBDetection: 一个强大的定向目标检测工具箱

OBBDetection是一个基于MMDetection的定向目标检测库,提供了多种先进的定向目标检测算法和丰富的功能,旨在推动定向目标检测领域的研究和应用。

目标检测OBBDetection深度学习计算机视觉MMdetectionGithub开源项目
Segment Anything Model: 革命性的图像分割技术

Segment Anything Model: 革命性的图像分割技术

探索Meta AI推出的Segment Anything Model (SAM),这一开创性的计算机视觉模型如何通过强大的零样本泛化能力,为图像分割任务带来全新可能。

Segment Anything图像分割AI模型计算机视觉深度学习Github开源项目
Segment Anything Video: 视频对象分割的新突破

Segment Anything Video: 视频对象分割的新突破

Segment Anything Video是一个基于Segment Anything模型的视频对象分割项目,它将SAM模型的强大图像分割能力扩展到了视频领域,实现了高效准确的视频对象分割和跟踪。

Segment AnythingMetaSeg图像分割计算机视觉深度学习Github开源项目
APISR: 动漫制作流程启发的真实世界动漫超分辨率技术

APISR: 动漫制作流程启发的真实世界动漫超分辨率技术

APISR是一种创新的动漫图像和视频超分辨率技术,通过分析动漫制作流程,针对真实世界动漫素材的特点进行优化,有效提升了低质量低分辨率动漫素材的画质。

APISR动漫超分辨率图像增强深度学习计算机视觉Github开源项目
DCNv4:高效可变形卷积网络重塑计算机视觉应用

DCNv4:高效可变形卷积网络重塑计算机视觉应用

本文介绍了最新的可变形卷积网络DCNv4,它通过两项关键改进大幅提升了性能和效率,为各类计算机视觉任务带来显著提升。

DCNv4可变形卷积计算机视觉深度学习神经网络Github开源项目
PASD: 像素感知稳定扩散技术在图像超分辨率和个性化风格化中的应用

PASD: 像素感知稳定扩散技术在图像超分辨率和个性化风格化中的应用

探索PASD技术如何革新图像处理领域,实现高质量的图像超分辨率和个性化风格化,为视觉艺术和计算机视觉带来新的可能性。

Stable Diffusion图像超分辨率个性化风格化人工智能计算机视觉Github开源项目
VMamba: 视觉状态空间模型的革新性突破

VMamba: 视觉状态空间模型的革新性突破

VMamba是一种新型的视觉骨干网络,它将状态空间语言模型Mamba移植到计算机视觉领域,实现了线性时间复杂度的高效处理。VMamba通过创新的2D选择性扫描模块,有效地解决了一维选择性扫描与二维视觉数据之间的差异,从多个角度收集上下文信息。extensive实验表明,VMamba在多项视觉任务上取得了令人瞩目的性能,尤其是在输入尺度扩展方面显示出明显优势。

VMamba计算机视觉深度学习图像处理神经网络Github开源项目
Point Transformer V3: 简化、加速、增强的3D点云处理模型

Point Transformer V3: 简化、加速、增强的3D点云处理模型

Point Transformer V3 (PTv3)是一种新型的3D点云处理模型,通过简化设计、提高效率和扩大规模,在多项点云任务上取得了最先进的性能。本文将详细介绍PTv3的设计理念、核心创新点以及在各类点云分割任务中的卓越表现。

Point Transformer V3点云处理语义分割深度学习计算机视觉Github开源项目
CVPR 2024人工智能生成内容(AIGC)研究进展综述

CVPR 2024人工智能生成内容(AIGC)研究进展综述

本文全面梳理了CVPR 2024会议中人工智能生成内容(AIGC)相关的最新研究进展,包括图像生成、视频生成、3D生成等多个热点方向,为读者提供了AIGC领域的前沿综述。

CVPR 2024计算机视觉人工智能深度学习机器学习Github开源项目
EfficientSAM: 高效分割任意目标的新型模型

EfficientSAM: 高效分割任意目标的新型模型

EfficientSAM是一种轻量级的分割任意目标(SAM)模型,通过利用掩码图像预训练技术,在大幅降低计算复杂度的同时,保持了不错的性能表现。

EfficientSAM分割模型图像处理计算机视觉深度学习Github开源项目