精选计算机视觉工具:AI应用、网站与开源项目大全

Audio2PhotoReal: Meta 推出通过语音驱动的逼真化身技术

Audio2PhotoReal: Meta 推出通过语音驱动的逼真化身技术

Meta 最新发布的 Audio2PhotoReal 项目能够生成由语音驱动的逼真人物化身,为元宇宙交互体验带来重大突破。

音频到真人化身AI合成对话场景计算机视觉深度学习Github开源项目
DINOv2: 无监督学习的强大视觉特征提取器

DINOv2: 无监督学习的强大视觉特征提取器

DINOv2是一种由Meta AI研发的自监督视觉Transformer模型,能够在不使用任何标签的情况下学习到强大的视觉特征表示,在多种计算机视觉任务中展现出优异的性能。

DINOv2视觉特征自监督学习Vision Transformer计算机视觉Github开源项目
深度学习新突破:Depth Anything V2 实现更�精确的单目深度估计

深度学习新突破:Depth Anything V2 实现更精确的单目深度估计

Depth Anything V2是一个强大的单目深度估计基础模型,相比V1版本在细节和鲁棒性方面都有显著提升。本文详细介绍了这一模型的特点、使用方法和应用前景。

Depth Anything V2深度估计计算机视觉预训练模型开源项目Github
Neuralangelo: 高保真度神经表面重建技术

Neuralangelo: 高保真度神经表面重建技术

Neuralangelo是NVIDIA研究人员开发的一种先进的3D重建AI模型,能够从2D视频片段重建出高度详细的3D结构。本文将深入介绍Neuralangelo的工作原理、主要特点以及在3D重建领域的重要意义。

Neuralangelo3D重建神经网络计算机视觉机器学习Github开源项目
GLEE: 突破性通用对象基础模型,引领图像和视频处理新时代

GLEE: 突破性通用对象基础模型,引领图像和视频处理新时代

探索GLEE,一个革命性的通用对象基础模型,为大规模图像和视频处理带来前所未有的能力。本文深入剖析GLEE的核心特性、应用场景及其对计算机视觉领域的深远影响。

GLEE计算机视觉目标检测实例分割多任务模型Github开源项目
4D高斯分散法:实时动态场景渲染的新突破

4D高斯分散法:实时动态场景渲染的新突破

4D高斯分散法(4D Gaussian Splatting)是一种创新的动态场景表示和渲染方法,通过优化4D高斯原语集合来拟合动态场景的时空4D体积,实现了实时高保真的视频合成和新视角渲染,在训练效率、存储效率和渲染速度等方面都具有显著优势。

4D Gaussian Splatting动态场景渲染实时渲染3D重建计算机视觉Github开源项目
Meta的Segment Anything Model 2 (SAM 2): 图像和视频分割的新突破

Meta的Segment Anything Model 2 (SAM 2): 图像和视频分割的新突破

Meta AI推出的SAM 2是首个统一的模型,能够在图像和视频中实时分割任何对象。它通过创新的架构和庞大的训练数据集,在多个任务上实现了卓越的性能,为计算机视觉领域带来了新的可能性。

SAM 2图像分割视频分割AI模型计算机视觉Github开源项目
Segment Any Anomaly: 零训练异常分割的创新方法

Segment Any Anomaly: 零训练异常分割的创新方法

Segment Any Anomaly (SAA+)是一种无需训练即可对任意异常进行分割的创新方法。通过结合基础模型和混合提示正则化,SAA+实现了出色的零样本异常检测性能,为计算机视觉领域带来了新的可能性。

SAA+异常分割零样本学习计算机视觉图像处理Github开源项目
Awesome Diffusion Transformers:推动生成式AI的革命性进展

Awesome Diffusion Transformers:推动生成式AI的革命性进展

探索扩散模型与Transformer的结合如何推动图像、视频、3D等多模态生成AI的最新进展,全面梳理该领域的重要研究成果和开源项目。

Diffusion TransformersAI生成计算机视觉深度学习图像合成Github开源项目
MMDetection3D: 强大的3D目标检测开源工具箱

MMDetection3D: 强大的3D目标检测开源工具箱

MMDetection3D是OpenMMLab开发的新一代通用3D目标检测平台,支持多模态/单模态检测器,室内/室外3D检测等多种任务,具有高效、灵活的特点。

MMDetection3D3D目标检测点云处理计算机视觉开源工具箱Github开源项目
Vision-RWKV: 高效可扩展的视觉感知新架构

Vision-RWKV: 高效可扩展的视觉感知新架构

Vision-RWKV是一种创新的视觉模型架构,基于RWKV改进设计,可高效处理高分辨率图像,在多项视觉任务中展现出优异的性能和扩展性,有望成为ViT的有力替代方案。

Vision-RWKV计算机视觉深度学习图像处理神经网络Github开源项目
FastSAM: 快速分割任何物体的革命性技术

FastSAM: 快速分割任何物体的革命性技术

FastSAM是一种基于CNN的实时解决方案,可以在图像中分割任何物体。它在效率和性能方面与原始SAM模型相媲美,为各种计算机视觉任务提供了理想的选择。本文深入探讨了FastSAM的工作原理、优势及其广泛的应用前景。

Fast Segment Anything图像分割AI模型计算机视觉深度学习Github开源项目
Big Vision:谷歌研究院的大规模视觉模型训练框架

Big Vision:谷歌研究院的大规模视觉模型训练框架

Big Vision是谷歌研究院开源的用于训练大规模视觉模型的代码库,支持Vision Transformer、MLP-Mixer等多种模型架构,可在云TPU上高效训练和评估。

big vision深度学习计算机视觉模型训练JaxGithub开源项目
Make-Your-Video: 用文本和结构引导实现定制化视频生成

Make-Your-Video: 用文本和结构引导实现定制化视频生成

Make-Your-Video是一种创新的视频生成技术,它利用文本描述和运动结构(如深度信息)作为指导,实现高质量、定制化的视频生成。该方法不仅能够准确捕捉场景内容和运动,还能生成更长、更连贯的视频序列。

Make-Your-Video视频生成AI模型深度学习计算机视觉Github开源项目
GroupMixFormer:推动视觉 Transformer 的新进展

GroupMixFormer:推动视觉 Transformer 的新进展

GroupMixFormer 是一种基于创新的 Group-Mix Attention (GMA) 机制的强大视觉 Transformer 模型,能够同时捕捉不同粒度的 token 和 token 组之间的相关性,在图像分类、目标检测和语义分割等任务中取得了优异的性能。

GroupMixFormer视觉Transformer自注意力机制图像分类计算机视觉Github开源项目
Transformers.js: 在浏览器中运行先进的机器学习模型

Transformers.js: 在浏览器中运行先进的机器学习模型

Transformers.js是一个强大的JavaScript库,可以直接在浏览器中运行先进的机器学习模型,无需服务器支持。它支持自然语言处理、计算机视觉、音频处理等多个领域的任务,为开发者提供了便捷的AI能力。

Transformers.js机器学习ONNX Runtime自然语言处理计算机视觉Github开源项目
LangSplat: 突破性的3D语言高斯分布技术

LangSplat: 突破性的3D语言高斯分布技术

LangSplat是一项创新的3D语言高斯分布技术,能够在3D空间中实现精确高效的开放式语言查询。本文深入探讨了LangSplat的核心原理、技术优势及其在3D场景理解中的广泛应用前景。

LangSplat3D语言高斯分散CVPR2024计算机视觉语言特征Github开源项目
ECCV 2024论文开源项目全面汇总:前沿研究一览无遗

ECCV 2024论文开源项目全面汇总:前沿研究一览无遗

本文全面整理了ECCV 2024会议录用的开源论文及代码,涵盖计算机视觉各大热门方向,为研究人员提供了最新最全的学术资源。

ECCV 2024计算机视觉深度学习自动驾驶AIGCGithub开源项目
CV算法工程师的成长之路:从基础到实践的全面指南

CV算法工程师的成长之路:从基础到实践的全面指南

本文全面介绍了CV算法工程师的学习路线和所需掌握的核心知识,涵盖计算机基础、编程语言、机器学习、深度学习、计算机视觉、模型压缩与部署等方面,为想要成为CV算法工程师的读者提供了系统的学习指导。

CV算法工程师机器学习深度学习计算机视觉Github开源项目
Make-sense: 革新图像标注的开源工具

Make-sense: 革新图像标注的开源工具

Make-sense是一款免费开源的在线图像标注工具,旨在简化和优化图像标注流程。它提供了直观的用户界面和强大的功能,使得图像标注变得更加高效和精准。

makesense.ai深度学习计算机视觉照片标注TensorFlow.jsGithub开源项目