精选计算机视觉工具:AI应用、网站与开源项目大全

EasyAnimate

EasyAnimate

EasyAnimate视频生成

基于Transformer的高分辨率长视频生成框架

parseq

parseq

场景文本识别PARSeq

创新的场景文本识别统一模型

nerf-factory

nerf-factory

NeRFPyTorch

PyTorch实现的NeRF算法集合

ER-NeRF

ER-NeRF

ER-NeRF神经辐射场

区域感知神经辐射场技术实现高保真说话人物肖像合成

LIVE-Layerwise-Image-Vectorization

LIVE-Layerwise-Image-Vectorization

LIVE图像矢量化

基于层次化方法的图像矢量化技术

SegmentAnything3D

SegmentAnything3D

Segment Anything 3D3D感知

Segment Anything技术在3D场景中的创新应用

MeshAnything

MeshAnything

三维模型生成人工智能

自回归Transformer实现的3D网格生成技术

3d-bat

3d-bat

3D BAT标注工具

全面高效的3D全景数据标注工具箱

Transformers-Tutorials

Transformers-Tutorials

TransformersHuggingFace

Transformers库深度学习模型教程集合

MobileSAM

MobileSAM

MobileSAM图像分割

高效轻量化图像分割模型,适用于移动设备

avatarify-python

avatarify-python

Avatarify Python视频会议

实时视频会议的逼真数字化身技术

vision-agent

vision-agent

Vision Agent计算机视觉

开源AI代理库用于生成计算机视觉代码

mediapipe-rs

mediapipe-rs

MediaPipe-rsWasmEdge

MediaPipe任务的Rust库 为WasmEdge WASI-NN提供支持

diffusion_policy

diffusion_policy

Diffusion Policy机器人控制

扩散模型驱动的机器人控制算法实现复杂任务执行

MotionBERT

MotionBERT

MotionBERT人体动作表示

多任务人体运动表征学习框架

corenet

corenet

CoreNet神经网络

用于训练多任务深度神经网络的工具库

X-Decoder

X-Decoder

X-Decoder图像分割

像素、图像和语言的统一解码模型

CVinW_Readings

CVinW_Readings

计算机视觉迁移学习

聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域

GLIGEN

GLIGEN

GLIGEN文本到图像生成

开放式条件引导的文本到图像生成模型

BackgroundMattingV2

BackgroundMattingV2

背景抠图实时处理

实时高分辨率背景抠图技术的创新突破