精选计算机视觉工具:AI应用、网站与开源项目大全

Real3D: 突破性的大规模真实图像三维重建模型

Real3D: 突破性的大规模真实图像三维重建模型

Real3D是一种创新的大规模重建模型(LRM)系统,可以利用单视图真实世界图像进行训练,在多个评估设置中均优于现有方法,为真实场景三维重建开辟了新的可能性。

Real3D3D重建深度学习计算机视觉自监督学习Github开源项目
SIFU:从单张图像重建高质量3D人体模型的突破性技术

SIFU:从单张图像重建高质量3D人体模型的突破性技术

SIFU是一项创新的3D人体重建技术,能够从单张图像重建出高质量的3D人体模型,在复杂姿势和宽松服装的处理上表现出色,非常适合3D打印、场景创建等实际应用。本文详细介绍了SIFU的核心技术、应用场景以及最新研究进展。

SIFU3D人体重建隐式函数计算机视觉深度学习Github开源项目
DreamScene4D: 从单目视频生成动态多物体场景的突破性技术

DreamScene4D: 从单目视频生成动态多物体场景的突破性技术

DreamScene4D是一种创新的视频到4D场景生成方法,能够从复杂的多物体视频中生成动态3D场景,处理遮挡、大幅物体运动和新视角,实现时空一致性。

DreamScene4D3D场景生成视频处理计算机视觉多目标跟踪Github开源项目
Splatter Image: 超快速单视图3D重建技术

Splatter Image: 超快速单视图3D重建技术

Splatter Image是一种基于高斯溅射的单视图3D重建方法,可以在38 FPS的速度下实现前向重建,为快速高质量的3D场景重建提供了新的解决方案。

Splatter Image3D重建计算机视觉深度学习图像处理Github开源项目
GPS-Gaussian: 实时人物新视角合成的突破性技术

GPS-Gaussian: 实时人物新视角合成的突破性技术

GPS-Gaussian是一种创新的3D高斯分布技术,能够实时生成高质量的人物新视角图像,为虚拟现实、游戏和视频制作等领域带来巨大潜力。

3D Gaussian Splatting人体新视角合成实时渲染深度学习计算机视觉Github开源项目
AIGS - 亚洲宝石学院的前沿教育与研究

AIGS - 亚洲宝石学院的前沿教育与研究

本文深入介绍了亚洲宝石学院(AIGS)的发展历程、教育项目、研究成果以及在宝石学领域的重要地位,展现了AIGS作为亚洲领先的宝石学机构所做出的卓越贡献。

AI生成图像数据源综述计算机视觉深度学习Github开源项目
K-Planes: 空间、时间和外观中的显式辐射场

K-Planes: 空间、时间和外观中的显式辐射场

K-Planes是一种新型的神经辐射场表示方法,通过分解高维空间来实现静态、动态和可变外观场景的统一建模。本文介绍了K-Planes的核心思想、主要特点及其在各类三维重建任务中的应用。

K-Planes辐射场计算机视觉三维重建深度学习Github开源项目
Awesome-Image-Composition: 深度学习图像合成技术的全面综述

Awesome-Image-Composition: 深度学习图像合成技术的全面综述

本文全面介绍了Awesome-Image-Composition项目,该项目汇集了图像合成领域的最新研究成果、数据集和工具,旨在推动图像合成技术的发展与应用。

图像合成AIGC深度学习计算机视觉人工智能Github开源项目
Seal框架:利用视觉基础模型分割任意点云序列

Seal框架:利用视觉基础模型分割任意点云序列

Seal是一种新型的自监督学习框架,能够利用现成的视觉基础模型知识来分割各种汽车点云序列。该框架具有可扩展性、一致性和泛化性,在多个点云数据集上取得了优异的性能。

点云分割自监督学习计算机视觉神经网络SealGithub开源项目
Follow-Your-Click: 开创图像动画新纪元的AI技术

Follow-Your-Click: 开创图像动画新纪元的AI技术

Follow-Your-Click是一项革命性的AI技术,通过简单的点击和短提示,让用户能够轻松地为静态图像添加动画效果。这项技术不仅提高了图像动画的可控性和局部性,还极大地简化了用户操作流程,为图像编辑和视频生成领域带来了新的可能性。

Follow-Your-Click图像动画人工智能深度学习计算机视觉Github开源项目
ARC:基于自适应旋转卷积的旋转目标检测新方法

ARC:基于自适应旋转卷积的旋转目标检测新方法

本文详细介绍了由清华大学LeapLab团队提出的ARC (Adaptive Rotated Convolution) 方法,这是一种创新的旋转目标检测算法,能够有效处理各种方向的目标,在ICCV 2023会议上展示。

ARC旋转目标检测自适应旋转卷积计算机视觉物体检测Github开源项目
DSINE: 重新思考表面法线估计的归纳偏置

DSINE: 重新思考表面法线估计的归纳偏置

探讨CVPR 2024口头报告论文DSINE在表面法线估计领域的创新方法,分析其如何通过重新设计归纳偏置来提高估计精度,并展望其在3D视觉领域的潜在影响。

DSINE表面法线估计归纳偏置计算机视觉深度学习Github开源项目
T-Rex2: revolucionando la detección de objetos con sinergia texto-visual

T-Rex2: revolucionando la detección de objetos con sinergia texto-visual

Descubre cómo T-Rex2 está transformando el campo de la detección de objetos al combinar prompts de texto y visuales, permitiendo una detección genérica y de código abierto con capacidades de cero disparo.

T-Rex2目标检测计算机视觉视觉提示APIGithub开源项目
Shape of Motion: 4D重建技术的突破性进展

Shape of Motion: 4D重建技术的突破性进展

Shape of Motion是一项基于单个视频进行4D重建的创新技术,通过结合深度学习和计算机视觉方法,能够从单个视频中重建出动态3D场景,为动态场景建模和理解开辟了新的可能性。

4D重建单视频重建Shape of Motion计算机视觉深度学习Github开源项目
ProPainter: 改进视频修复的传播和转换器技术

ProPainter: 改进视频修复的传播和转换器技术

ProPainter是一个创新的视频修复框架,通过改进特征传播和转换器架构,有效解决了视频修复中的时空一致性问题,为对象移除、视频补全等任务带来了显著提升。

ProPainter视频修复深度学习计算机视觉ICCV 2023Github开源项目
SyncTalk:说话头合成中的同步魔鬼

SyncTalk:说话头合成中的同步魔鬼

SyncTalk是一种新型的说话头合成方法,通过精确同步唇部运动、面部表情和头部姿势,实现了高度逼真的说话视频生成。该方法采用三平面哈希表示来保持人物身份,并引入了多个创新组件来增强同步性和真实感。

SyncTalk头像合成人工智能计算机视觉CVPRGithub开源项目
VGGSfM: 视觉几何基础的深度结构from运动重建技术

VGGSfM: 视觉几何基础的深度结构from运动重建技术

VGGSfM是一种新型的深度学习SfM(结构from运动)pipeline,其中每个组件都是完全可微分的,因此可以进行端到端的训练。该方法在CO3D、IMC Phototourism和ETH3D三个流行数据集上达到了最先进的性能。

VGGSfM三维重建深度学习结构运动计算机视觉Github开源项目
TalkingGaussian: 基于高斯散射的结构持久性3D说话头像合成技术

TalkingGaussian: 基于高斯散射的结构持久性3D说话头像合成技术

TalkingGaussian是一种新颖的3D说话头像合成方法,通过高斯散射实现结构持久性和高保真度的面部动画效果。该方法在ECCV 2024会议上提出,为人工智能驱动的虚拟人物创作带来了新的可能性。

TalkingGaussian3D说话头合成高斯散射计算机视觉深度学习Github开源项目
MAR: 一种无需向量量化的自回归图像生成模型

MAR: 一种无需向量量化的自回归图像生成模型

MAR是一种创新的自回归图像生成模型,无需使用向量量化,能够生成高质量的图像。本文将深入介绍MAR的原理、特点和应用,以及它在图像生成领域带来的突破性进展。

MAR图像生成自回归模型深度学习计算机视觉Github开源项目
TiTok: 革命性的1D图像标记化技术

TiTok: 革命性的1D图像标记化技术

ByteDance开源的TiTok项目提出了一种突破性的1D图像标记化方法,能用仅32个离散标记表示一张图像,大幅提升图像生成速度,同时保持高质量的生成效果。本文深入解析TiTok的原理、特点及其在图像处理领域的重要意义。

TiTok图像标记化生成模型神经网络计算机视觉Github开源项目