精选计算机视觉工具:AI应用、网站与开源项目大全

Open-AnimateAnyone

Open-AnimateAnyone

Animate AnyoneAI绘图

人人皆可使用的AI动画生成项目

GroundingDINO

GroundingDINO

Grounding DINO目标检测

语言驱动的开放集目标检测模型

SAM4MIS

SAM4MIS

SAM医学图像分割

医学图像分割技术的前沿进展

OCR_DataSet

OCR_DataSet

文字识别数据集

综合OCR数据集资源库及工具集

3D-Gaussian-Splatting-Papers

3D-Gaussian-Splatting-Papers

3D Gaussian Splatting计算机视觉

3D高斯溅射技术论文集锦:最新研究进展与应用

PuLID

PuLID

PuLIDAI绘图

基于对比对齐的高效ID定制技术

mip-splatting

mip-splatting

3D Gaussian SplattingMip-Splatting

实现无锯齿3D高斯渲染的创新技术

murf

murf

MuRF多基线辐射场

多基线辐射场技术革新三维场景重建

LaRa

LaRa

LaRa辐射场

大基线辐射场技术实现突破性进展

kitti360LabelTool

kitti360LabelTool

KITTI-360标注工具

KITTI-360数据集标注工具

gta

gta

GTA多视图Transformer

几何感知注意力机制增强多视图Transformer性能

carla_garage

carla_garage

CARLA自动驾驶

突破端到端自动驾驶模型的隐藏偏差 高性能仿真平台

diffae

diffae

Diffusion Autoencoders生成模型

基于扩散模型的自编码器框架实现图像生成与编辑

fvcore

fvcore

fvcore计算机视觉

FAIR开发的轻量级计算机视觉库 提供核心共享功能

awesome-multi-task-learning

awesome-multi-task-learning

多任务学习机器学习

精选多任务学习资源集合 涵盖数据集代码库和研究论文

Mamba-in-CV

Mamba-in-CV

Mamba计算机视觉

Mamba模型在计算机视觉领域的最新应用概览

MDT

MDT

Masked Diffusion Transformer图像合成

MDTv2图像合成模型:更快收敛和卓越性能

ai2thor

ai2thor

AI2-THOR人工智能

AI智能体交互研究的高仿真仿真环境

lerf

lerf

LERFNeRF

基于语言嵌入的辐射场技术 实现3D场景的语义理解与交互

Total-Recon

Total-Recon

可变形场景重建视角合成

可变形场景重建技术实现沉浸式视角合成