精选计算机视觉工具:AI应用、网站与开源项目大全

Awesome-Sketch-Based-Applications

Awesome-Sketch-Based-Applications

Sketch-Based Applications图像合成

草图应用资源汇总 涵盖多领域前沿技术

audio2photoreal

audio2photoreal

音频到真人化身AI合成

AI驱动的音频转人物对话视频技术

dinov2

dinov2

DINOv2视觉特征

通过无监督学习构建强大视觉特征的先进方法

Depth-Anything-V2

Depth-Anything-V2

Depth Anything V2深度估计

单目深度估计新突破,高精度与快速推理并重

neuralangelo

neuralangelo

Neuralangelo3D重建

从图像重建高精度3D表面模型的神经网络技术

4DGaussians

4DGaussians

4D Gaussian Splatting动态场景渲染

4D高斯分布用于实时动态场景渲染

GLEE

GLEE

GLEE计算机视觉

实现多任务图像和视频处理的通用视觉基础模型

detr

detr

DETR目标检测

Transformer架构重塑目标检测流程

segment-anything-2

segment-anything-2

SAM 2图像分割

新一代图像和视频分割基础模型

Segment-Any-Anomaly

Segment-Any-Anomaly

SAA+异常分割

基于混合提示正则化的零样本异常分割方法

Awesome-Diffusion-Transformers

Awesome-Diffusion-Transformers

Diffusion TransformersAI生成

扩散模型与Transformer融合的前沿研究进展汇总

mmdetection3d

mmdetection3d

MMDetection3D3D目标检测

支持多模态单模态的开源3D目标检测框架

mmcv

mmcv

MMCVOpenMMLab

OpenMMLab开源计算机视觉基础库

FastSAM

FastSAM

Fast Segment Anything图像分割

全景分割模型 速度提升50倍且性能可比SAM

Vision-RWKV

Vision-RWKV

Vision-RWKV计算机视觉

基于RWKV架构的高效视觉感知模型

big_vision

big_vision

big vision深度学习

基于Jax/Flax的大规模视觉模型训练框架

Make-Your-Video

Make-Your-Video

Make-Your-Video视频生成

结合文本和深度信息的智能视频生成模型

GroupMixFormer

GroupMixFormer

GroupMixFormer视觉Transformer

视觉Transformer的群组混合注意力革新

transformers.js

transformers.js

Transformers.js机器学习

浏览器端运行先进机器学习模型的JavaScript库

LangSplat

LangSplat

LangSplat3D语言高斯分散

将3D场景与自然语言融合的高斯点云渲染技术