精选计算机视觉工具:AI应用、网站与开源项目大全

DiffusionRig: 人脸外观编辑的个性化先验学习

DiffusionRig: 人脸外观编辑的个性化先验学习

DiffusionRig是一种新型的人脸编辑方法,通过学习个性化的先验知识,实现高质量的人脸外观编辑,包括表情、光照和姿态等方面的变换,同时保持身份和高频细节。该方法仅需少量样本即可学习个性化模型,在保真度和身份保持方面均优于现有方法。

DiffusionRig人脸编辑个性化先验扩散模型计算机视觉Github开源项目
DEADiff: 一种高效的具有解耦表示的风格化扩散模型

DEADiff: 一种高效的具有解耦表示的风格化扩散模型

DEADiff是一种新颖的风格化扩散模型,能够高效地将参考图像的风格迁移到文本生成的图像中,同时保持良好的文本可控性。该模型通过解耦风格和语义表示,以及非重构性学习方法,实现了风格迁移和文本可控性的平衡。

DEADiff图像风格化文本到图像生成扩散模型计算机视觉Github开源项目
GeoChat:面向遥感的大型视觉语言模型

GeoChat:面向遥感的大型视觉语言模型

GeoChat是首个针对遥感场景的大型视觉语言模型,能够处理高分辨率遥感图像并进行区域级推理,在多种遥感任务中展现出强大的零样本性能。

GeoChat遥感视觉语言模型AI计算机视觉Github开源项目
EasyAnimate:基于Transformer架构的高性能长视频生成方法

EasyAnimate:基于Transformer架构的高性能长视频生成方法

EasyAnimate是一个基于Transformer扩散模型的端到端解决方案,用于高分辨率和长视频生成。它支持直接从预训练模型生成不同分辨率的6秒24fps视频,并允许用户训练自定义基线模型和Lora模型进行特定风格转换。

EasyAnimate视频生成AI绘图深度学习计算机视觉Github开源项目
PARSeq: 基于排列自回归序列模型的场景文本识别

PARSeq: 基于排列自回归序列模型的场景文本识别

PARSeq是一种新型的场景文本识别模型,通过统一不同的解码方法和双向上下文细化,在多个基准数据集上达到了最先进的性能,同时具有更高的计算效率。本文详细介绍了PARSeq的原理、实现和评估结果。

场景文本识别PARSeq深度学习计算机视觉ECCVGithub开源项目
65 Machine Learning Interview Questions 2024

65 Machine Learning Interview Questions 2024

A comprehensive collection of technical interview questions for machine learning and computer vision engineering positions, covering key concepts and practical applications.

机器学习面试问题深度学习计算机视觉神经网络Github开源项目
NeRF-Factory:一个强大的PyTorch神经辐射场库

NeRF-Factory:一个强大的PyTorch神经辐射场库

NeRF-Factory是一个由Kakao Brain开发的开源项目,它提供了一个功能强大、易于扩展的PyTorch神经辐射场(NeRF)库。该库实现了多个流行的NeRF模型,并支持多种数据集,为NeRF研究人员提供了一个便捷的工具。

NeRFPyTorch计算机视觉3D渲染神经辐射场Github开源项目
蜜蜂(Honeybee):自然界的勤劳使者

蜜蜂(Honeybee):自然界的勤劳使者

蜜蜂是自然界中最勤劳的昆虫之一,它们不仅为人类提供了蜂蜜、蜂蜡等珍贵产品,更在生态系统中扮演着至关重要的授粉者角色。本文将全面介绍蜜蜂的生活习性、社会结构、生态价值以及当前面临的挑战与保护措施。

Honeybee多模态大语言模型局部性增强投影器计算机视觉深度学习Github开源项目
ER-NeRF: 高效率区域感知神经辐射场用于高保真说话人像合成

ER-NeRF: 高效率区域感知神经辐射场用于高保真说话人像合成

ER-NeRF是一种新颖的条件神经辐射场(NeRF)架构,用于说话人像合成。它能够同时实现快速收敛、实时渲染和最先进的性能,同时保持较小的模型大小。该方法明确利用了空间区域对说话人像建模的不平等贡献,通过创新的区域感知设计提高了效率和质量。

ER-NeRF神经辐射场人像合成深度学习计算机视觉Github开源项目
LIVE: 突破性的层级图像矢量化技术

LIVE: 突破性的层级图像矢量化技术

LIVE (Layer-wise Image Vectorization) 是一种创新的图像矢量化方法,能够以层级方式将栅格图像转换为SVG矢量图形,保持图像拓扑结构的同时实现高效的矢量化。

LIVE图像矢量化SVG生成计算机视觉CVPRGithub开源项目
TorchShow: 简化PyTorch张量可视化的强大工具

TorchShow: 简化PyTorch张量可视化的强大工具

TorchShow是一个专为PyTorch设计的可视化库,它能够让用户仅用一行代码就轻松实现张量的可视化。无论是处理图像、视频还是各种类型的张量数据,TorchShow都能提供直观而强大的可视化功能,大大提高了深度学习项目的开发效率。

TorchShow张量可视化计算机视觉调试工具图像处理Github开源项目
Lang-Segment-Anything: 基于文本提示的图像分割和对象检测新型工具

Lang-Segment-Anything: 基于文本提示的图像分割和对象检测新型工具

Lang-Segment-Anything是一个开源项目,结合了实例分割和文本提示的强大功能,可以为图像中的特定对象生成掩码。该项目基于Meta最近发布的Segment Anything模型和GroundingDINO检测模型构建,是一个易于使用且有效的对象检测和图像分割工具。

Language Segment-Anything图像分割对象检测深度学习计算机视觉Github开源项目
SegmentAnything3D: 将2D分割扩展到3D场景的创新方法

SegmentAnything3D: 将2D分割扩展到3D场景的创新方法

SegmentAnything3D (SAM3D) 是一种创新的3D分割方法,通过将Segment Anything Model (SAM) 的2D分割能力扩展到3D空间,实现了仅需单视图交互即可完成整个3D场景分割的目标。该方法无需额外训练,利用神经辐射场作为桥梁,高效地将2D分割信息迁移到3D点云中。

开源项目Segment Anything 3D3D感知图像分割点云处理计算机视觉Github
MindCV: 基于MindSpore的计算机视觉工具箱

MindCV: 基于MindSpore的计算机视觉工具箱

MindCV是一个开源的计算机视觉研究和开发工具箱,基于MindSpore深度学习框架开发。它集成了一系列经典和最先进的视觉模型,如ResNet和SwinTransformer,以及它们的预训练权重和训练策略。

MindCV计算机视觉深度学习框架预训练模型图像分类Github开源项目
MindFormers:基于MindSpore的大模型开发工具包

MindFormers:基于MindSpore的大模型开发工具包

MindFormers是一个基于MindSpore开发的大模型训练和推理工具包,支持多种流行的Transformer模型,提供了易用的API接口和灵活的配置选项,可以快速实现模型的训练、评估和推理。

MindSporeTransformers大模型自然语言处理计算机视觉Github开源项目
基于小波扩散模型的低光照图像增强技术

基于小波扩散模型的低光照图像增强技术

本文介绍了一种新型的低光照图像增强方法——基于小波扩散模型的低光照图像增强技术。该方法利用扩散模型的强大生成能力,结合小波变换的多尺度特性,有效地提高了低光照图像的质量,展现出优异的增强效果和处理效率。

低光照图像增强小波扩散模型Siggraph Asia 2023深度学习计算机视觉Github开源项目
MeshAnything: 艺术家级别的网格生成技术

MeshAnything: 艺术家级别的网格生成技术

MeshAnything是一项突破性的技术,能够从任何3D表示中生成艺术家级别的网格模型。它结合了自回归变换器和先进的网格tokenization方法,为3D资产制作提供了高效、高质量的解决方案。

三维模型生成人工智能机器学习深度学习计算机视觉Github开源项目
3D-BAT: 革新性的三维边界框标注工具

3D-BAT: 革新性的三维边界框标注工具

3D-BAT是一款强大的开源工具,用于点云和图像的三维边界框标注。它为自动驾驶、机器人技术等领域的数据标注提供了高效便捷的解决方案。

3D BAT标注工具计算机视觉自动驾驶多模态数据Github开源项目
Vision-LSTM: 革新计算机视觉的新型神经网络架构

Vision-LSTM: 革新计算机视觉的新型神经网络架构

Vision-LSTM 是一种将长短期记忆网络(LSTM)应用于计算机视觉任务的创新架构,它通过捕捉图像的长程依赖关系,在图像分类等多项视觉任务上取得了优异的性能。本文将深入探讨 Vision-LSTM 的原理、特点及其在计算机视觉领域的潜力。

Vision-LSTMViL计算机视觉预训练模型图像处理Github开源项目
Transformers教程:使用HuggingFace库实现多模态AI模型

Transformers教程:使用HuggingFace库实现多模态AI模型

本文介绍了Niels Rogge创建的Transformers-Tutorials项目,该项目包含了使用HuggingFace Transformers库实现的多种最新AI模型的教程和演示,涵盖了计算机视觉、自然语言处理、多模态等多个领域。

TransformersHuggingFace深度学习自然语言处理计算机视觉Github开源项目