精选计算机视觉工具:AI应用、网站与开源项目大全

DCR: 探索扩散模型中的复制现象

DCR: 探索扩散模型中的复制现象

深入解析CVPR'23和NeurIPS'23论文中关于扩散模型复制行为的研究成果,揭示DCR项目在理解和改进生成模型方面的重要贡献。

Diffusion模型数据复制生成式AI机器学习计算机视觉Github开源项目
NXTP: 物体识别的下一代革新 - 将目标检测转化为下一个标记预测

NXTP: 物体识别的下一代革新 - 将目标检测转化为下一个标记预测

NXTP是一种创新的物体识别方法,它将目标检测任务重新定义为预测下一个标记的问题。这种方法不仅提高了识别的灵活性和准确性,还为计算机视觉领域带来了全新的研究方向。

Object RecognitionAI视觉深度学习计算机视觉自然语言处理Github开源项目
COLMAP-Free 3D Gaussian Splatting: 无需COLMAP的3D高斯溅射新方法

COLMAP-Free 3D Gaussian Splatting: 无需COLMAP的3D高斯溅射新方法

COLMAP-Free 3D Gaussian Splatting是一种创新的3D场景重建和新视角合成技术,无需依赖COLMAP等传统SfM预处理步骤,通过显式3D高斯表示和输入视频流的连续性,实现了高质量的新视角渲染和相机位姿估计。

3D Gaussian Splatting计算机视觉神经渲染三维重建无监督学习Github开源项目
MixFormer: 革新视觉目标跟踪的端到端框架

MixFormer: 革新视觉目标跟踪的端到端框架

MixFormer是一个基于Transformer的创新视觉目标跟踪框架,通过迭代混合注意力机制实现了端到端的目标跟踪,在多个基准测试中取得了优异的性能。本文将详细介绍MixFormer的核心设计理念、技术创新点以及在视觉跟踪领域的重要贡献。

MixFormer目标追踪计算机视觉深度学习注意力机制Github开源项目
MeMOTR: 基于长期记忆增强的Transformer多目标跟踪模型

MeMOTR: 基于长期记忆增强的Transformer多目标跟踪模型

MeMOTR是一种端到端的基于Transformer架构的多目标跟踪模型,通过长期记忆注入和自定义记忆注意力层显著提升了目标关联性能。本文详细介绍了MeMOTR的核心思想、网络结构、训练细节以及在多个数据集上的实验结果。

MeMOTR多目标跟踪Transformer长期记忆计算机视觉Github开源项目
CamLiFlow: 基于双向相机-LiDAR融合的光流和场景流联合估计

CamLiFlow: 基于双向相机-LiDAR融合的光流和场景流联合估计

CamLiFlow是一种新颖的端到端框架,用于从同步的2D和3D数据中联合估计光流和场景流。它通过2D和3D分支之间的多个双向连接,实现了更好的性能和更少的参数。该方法在KITTI场景流基准测试中排名第一,以1/7的参数超越了之前的最佳方法。

CamLiRAFT光流估计场景流估计双向融合计算机视觉Github开源项目
OpenTAD: 开源时序动作检测工具箱

OpenTAD: 开源时序动作检测工具箱

OpenTAD是一个基于PyTorch的开源时序动作检测(TAD)工具箱,提供了多种最先进的TAD方法和数据集支持,旨在促进时序动作检测研究的发展。

OpenTAD时序动作检测开源工具箱PyTorch计算机视觉Github开源项目
Video Features: 一款强大的视频特征提取工具

Video Features: 一款强大的视频特征提取工具

Video Features 是一个用于从原始视频中提取多模态特征的开源工具包,支持多种主流模型和并行提取,为视频分析和理解任务提供了强大的基础。

视频特征提取深度学习模型多模态分析GitHub项目计算机视觉Github开源项目
SlowFast网络:一种高效的视频动作识别架构

SlowFast网络:一种高效的视频动作识别架构

SlowFast网络是一种创新的双路径视频理解架构,通过慢速和快速路径分别捕获空间语义和时间动作信息,在视频分类和检测任务中取得了突破性进展。

PySlowFast视频理解神经网络模型深度学习计算机视觉Github开源项目
HAT: 激活更多像素的图像超分辨率变换器

HAT: 激活更多像素的图像超分辨率变换器

HAT是一种创新的图像超分辨率方法,通过激活更多像素来提高图像重建质量。本文详细介绍了HAT的原理、特点及其在图像超分辨率和图像恢复等任务中的应用,展示了其优越的性能表现。

图像超分辨率HATTransformer深度学习计算机视觉Github开源项目
Medical-SAM2: 基于SAM2的医学影像分割新突破

Medical-SAM2: 基于SAM2的医学影像分割新突破

Medical-SAM2是一个基于Meta AI发布的SAM2模型开发的医学影像分割工具,可以同时处理2D和3D医学影像分割任务,为医学影像处理领域带来了新的突破。

Medical SAM 2图像分割医学影像深度学习计算机视觉Github开源项目
Test-Time Adaptation: 突破分布偏移的新范式

Test-Time Adaptation: 突破分布偏移的新范式

Test-Time Adaptation (TTA)是一种新兴的机器学习范式,旨在通过在测试时利用无标签数据来适应未知的测试分布,从而提高模型在分布偏移情况下的性能。本文全面介绍了TTA的背景、方法、应用和挑战。

在线测试时适应计算机视觉深度学习模型微调PyTorchGithub开源项目
Magi: 集魔法与冒险于一身的奇幻漫画

Magi: 集魔法与冒险于一身的奇幻漫画

Magi是一部由大高忍创作的日本奇幻冒险漫画,讲述了少年阿拉丁和他的伙伴们在充满魔法的世界中冒险的故事。该作品融合了《一千零一夜》等阿拉伯故事的元素,创造出一个独特的奇幻世界观,深受读者喜爱。

Magi漫画AI模型计算机视觉文本识别Github开源项目
Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

本文介绍了一个新的视觉参数高效迁移学习基准(V-PETL Bench),该基准在30个不同的计算机视觉数据集上系统评估了25种主流的参数高效迁移学习算法,为公平评估这些算法提供了一个模块化和可扩展的代码库。

V-PETL Bench参数高效迁移学习计算机视觉基准测试模型评估Github开源项目
Awesome-Text-to-Image: 探索文本到图像生成的前沿技术

Awesome-Text-to-Image: 探索文本到图像生成的前沿技术

本文全面介绍了Awesome-Text-to-Image项目,深入探讨了文本到图像生成技术的最新进展、评估指标、数据集以及代表性工作,为研究人员和开发者提供了宝贵的参考资源。

文生图AI绘画计算机视觉深度学习自然语言处理Github开源项目
CoTTA: 持续测试时域适应的创新方法

CoTTA: 持续测试时域适应的创新方法

深入解析CVPR 2022论文《Continual Test-Time Domain Adaptation》提出的CoTTA方法,探讨其在持续测试时域适应任务中的创新与应用。

CoTTA持续测试时适应域适应计算机视觉深度学习Github开源项目
Tune-A-Video: 一种创新的一镜到底文本到视频生成技术

Tune-A-Video: 一种创新的一镜到底文本到视频生成技术

Tune-A-Video是一种新颖的一镜到底文本到视频生成方法,可以通过微调预训练的文本到图像扩散模型来生成高质量的视频。本文详细介绍了Tune-A-Video的工作原理、主要特点及应用前景。

Tune-A-Video文本生成视频扩散模型人工智能计算机视觉Github开源项目
UniMatch: 革新半监督语义分割的弱到强一致性方法

UniMatch: 革新半监督语义分割的弱到强一致性方法

UniMatch是一种针对半监督语义分割任务的创新方法,通过重新审视弱到强一致性原则,在多个基准数据集上取得了显著的性能提升。该方法不仅适用于自然图像分割,还成功应用于遥感变化检测和医学图像分割等场景。

UniMatch语义分割半监督学习计算机视觉深度学习Github开源项目
VisionLLaMA: 统一的LLaMA视觉任务骨干网络

VisionLLaMA: 统一的LLaMA视觉任务骨干网络

VisionLLaMA是一个创新的视觉变换器架构,它将LLaMA语言模型的成功设计应用于各种计算机视觉任务。这种统一的建模框架展示了在图像生成、分类、语义分割和目标检测等多个领域的卓越性能,为视觉AI开辟了新的可能性。

VisionLLaMA计算机视觉图像生成图像理解预训练模型Github开源项目
StyleShot: 一款突破性的风格迁移AI模型

StyleShot: 一款突破性的风格迁移AI模型

StyleShot是一个创新的AI模型,能够将任意风格无缝迁移到任意内容中,无需针对特定图像进行微调就能生成高质量的个性化风格图片。本文深入探讨了StyleShot的核心技术、应用场景以及其在风格迁移领域的重要意义。

StyleShot图像风格迁移AI绘图深度学习计算机视觉Github开源项目