精选计算机视觉工具:AI应用、网站与开源项目大全

dict-guided

dict-guided

场景文字识别VinText数据集

词典指导场景文字识别方法及VinText数据集

blur-kernel-space-exploring

blur-kernel-space-exploring

图像去模糊模糊内核空间

基于编码模糊核空间的图像去模糊新方法

ISBNet

ISBNet

3D点云实例分割

高效准确的3D点云实例分割网络实现先进场景理解

cam_lidar_calibration

cam_lidar_calibration

相机激光雷达标定计算机视觉

相机与激光雷达自动校准优化工具

Awesome-Foundation-Models

Awesome-Foundation-Models

基础模型多模态

视觉语言基础模型精选资源库

MetaTransformer

MetaTransformer

Meta-Transformer多模态学习

统一12种模态的多模态学习框架

DCR

DCR

Diffusion模型数据复制

扩散模型数据复制研究与优化方法分析

nxtp

nxtp

Object RecognitionAI视觉

基于下一标记预测的创新物体识别技术

CF-3DGS

CF-3DGS

3D Gaussian Splatting计算机视觉

免COLMAP的3D高斯散射场景重建技术

MixFormer

MixFormer

MixFormer目标追踪

基于迭代混合注意力的端到端目标跟踪框架

MeMOTR

MeMOTR

MeMOTR多目标跟踪

基于长期记忆的Transformer多目标跟踪方法

CamLiFlow

CamLiFlow

CamLiRAFT光流估计

双向相机LiDAR融合实现光流和场景流联合估计

OpenTAD

OpenTAD

OpenTAD时序动作检测

多功能时序动作检测工具箱支持多数据集和前沿方法

video_features

video_features

视频特征提取深度学习模型

多模态视频特征提取框架 支持多种深度学习模型

HAT

HAT

图像超分辨率HAT

激活更多像素的图像超分辨率转换器

Awesome_Long_Form_Video_Understanding

Awesome_Long_Form_Video_Understanding

长视频理解视频分析

长视频理解研究前沿进展与资源综述

Medical-SAM2

Medical-SAM2

Medical SAM 2图像分割

基于SAM2框架的2D和3D医学图像精准分割模型

test-time-adaptation

test-time-adaptation

在线测试时适应计算机视觉

多场景计算机视觉模型在线测试时适应框架

Awesome-Text-to-Image

Awesome-Text-to-Image

文生图AI绘画

全面收录文本到图像生成与编辑技术资源

Parameter-Efficient-Transfer-Learning-Benchmark

Parameter-Efficient-Transfer-Learning-Benchmark

V-PETL Bench参数高效迁移学习

统一视觉参数高效迁移学习评测基准