值得探索的AI开源项目:工具、网站与应用合集

3D变形注意力机制: 提升2D到3D特征映射效果的新方法

3D变形注意力机制: 提升2D到3D特征映射效果的新方法

本文介绍了一种名为3D变形注意力(DFA3D)的新型算子,用于2D到3D特征映射。DFA3D结合了深度估计和特征聚合,有效缓解了深度歧义问题,并能逐层细化提取的特征。实验表明,DFA3D在多个基线方法上都带来了显著性能提升,尤其是在高质量深度信息可用时提升更为明显,展示了该方法的优越性和巨大潜力。

DFA3D特征提升3D目标检测BEVFormer深度估计Github开源项目
NVIDIA Jetson AGX Xavier上的GPUDirect RDMA演示项目:jetson-rdma-picoevb

NVIDIA Jetson AGX Xavier上的GPUDirect RDMA演示项目:jetson-rdma-picoevb

探索NVIDIA开源的jetson-rdma-picoevb项目,了解如何在Jetson AGX Xavier平台上实现GPUDirect RDMA功能,实现PCIe设备与CUDA内存之间的零拷贝数据共享。

GPUDirect RDMAFPGAPCIeCUDAXilinx VivadoGithub开源项目
Chinese LLM Benchmark: 全面评测中文大语言模型能力

Chinese LLM Benchmark: 全面评测中文大语言模型能力

本文详细介绍了一个名为CLiB(Chinese LLM Benchmark)的中文大语言模型评测基准,该基准对115个中文大模型进行了全面评测,涵盖了分类、信息抽取、阅读理解等多个能力维度,为用户选择和了解中文大模型提供了重要参考。

CLiB中文大模型评测榜单能力排行开源模型Github开源项目
YOLOv7: 实时目标检测的新突破

YOLOv7: 实时目标检测的新突破

YOLOv7是目标检测领域的最新突破,在速度和精度上都超越了之前的模型。本文全面介绍YOLOv7的特点、创新和应用。

YOLOv7目标检测深度学习计算机视觉性能优化Github开源项目
SpatialTracker: 在3D空间中追踪任意2D像素的突破性技术

SpatialTracker: 在3D空间中追踪任意2D像素的突破性技术

探索CVPR 2024亮点论文SpatialTracker的创新方法,实现从2D视频到3D轨迹的精确追踪,为计算机视觉领域带来全新可能。

SpatialTracker3D追踪计算机视觉CVPR 2024像素追踪Github开源项目
Far3D: 突破远程3D目标检测的新境界

Far3D: 突破远程3D目标检测的新境界

Far3D是一种创新的远程3D目标检测方法,通过稀疏查询、多视角特征聚合和范围调制3D降噪等技术,有效解决了远距离目标检测中的计算开销大、收敛不稳定等问题,在自动驾驶等场景中具有重要应用价值。

Far3D3D目标检测计算机视觉深度学习自动驾驶Github开源项目
PyTorch深度学习实战教程

PyTorch深度学习实战教程

本文全面介绍PyTorch深度学习框架,从基础概念到高级应用,帮助读者快速掌握PyTorch进行深度学习模型开发与训练。

PyTorch深度学习模型训练教程代码实践Github开源项目
CCSR: 提高扩散模型在内容一致性超分辨率中的稳定性

CCSR: 提高扩散模型在内容一致性超分辨率中的稳定性

CCSR是一种新的扩散模型方法,旨在提高超分辨率重建结果的稳定性和内容一致性。本文介绍了CCSR的工作原理、创新点及其在真实世界超分辨率任务中的优异表现。

CCSR超分辨率扩散模型图像恢复稳定性Github开源项目
IP_LAP: 身份保持的说话人脸生成技术

IP_LAP: 身份保持的说话人脸生成技术

探索CVPR 2023论文《基于地标和外观先验的身份保持说话人脸生成》,介绍IP_LAP项目的创新方法、实现细节和应用前景。

说话人脸生成身份保持CVPR 2023深度学习计算机视觉Github开源项目
FasterViT:具有层次注意力机制的快速视觉Transformer

FasterViT:具有层次注意力机制的快速视觉Transformer

FasterViT是一种新型混合CNN-ViT神经网络,专注于计算机视觉应用的高图像吞吐量。它结合了CNN的快速局部表示学习和ViT的全局建模优势,通过创新的层次注意力机制实现了精度和速度的平衡,在多个视觉任务上取得了最先进的性能。

FasterViT视觉Transformer图像分类目标检测层级注意力机制Github开源项目
FlashAvatar: 高效率高保真度的3D头像生成技术

FlashAvatar: 高效率高保真度的3D头像生成技术

FlashAvatar是一种新型轻量级3D可动画头像表示方法,能够在几分钟内从单目视频序列重建数字头像,并在消费级GPU上以300FPS的速度渲染高保真度的真实感图像。

FlashAvatar头像生成3D建模计算机视觉高效渲染Github开源项目
Linly-Talker: 开创人工智能交互新纪元的数字人对话系统

Linly-Talker: 开创人工智能交互新纪元的数字人对话系统

Linly-Talker是一个融合了大语言模型、语音识别、语音合成和数字人生成等多项先进技术的智能对话系统。它通过创新的人机交互方式,为用户带来身临其境的数字人对话体验。

Linly-Talker数字人对话系统人工智能语音交互多模态Github开源项目
TriplaneGaussian: 基于变压器的快速单视图3D重建新方法

TriplaneGaussian: 基于变压器的快速单视图3D重建新方法

TriplaneGaussian是一种新型的3D重建方法,结合了Triplane和Gaussian Splatting技术,能够在几秒钟内从单张图像快速重建出高质量的3D模型。该方法采用变压器网络架构,通过混合表示实现了快速渲染和优质重建的平衡。

3D重建TriplaneGaussian单视图Transformer高速重建Github开源项目
DiffBIR: 基于生成扩散先验的盲图像复原技术

DiffBIR: 基于生成扩散先验的盲图像复原技术

DiffBIR是一种新型的图像复原方法,通过结合生成扩散模型的先验知识,实现了对各种退化图像的高质量复原。该方法在盲超分辨率、盲人脸修复和盲去噪等任务上都取得了优异的效果,为图像复原领域带来了新的突破。

DiffBIR图像修复扩散模型盲图像超分辨率人脸修复Github开源项目
IPEX-LLM:英特尔推出的高效大语言模型加速库

IPEX-LLM:英特尔推出的高效大语言模型加速库

IPEX-LLM是英特尔推出的一款专为Intel XPU (包括CPU和GPU)打造的轻量级大语言模型加速库,旨在通过低位优化(FP4/INT4/FP8/INT8)加速LLM模型推理。本文将详细介绍IPEX-LLM的特性、应用场景以及使用方法。

IPEX-LLMLLMIntel应用开发教程Github开源项目
Genie: 革新蛋白质设计的人工智能新方法

Genie: 革新蛋白质设计的人工智能新方法

探索Genie项目如何通过等变扩散模型实现从头蛋白质设计,为生物技术和医药研发带来新机遇。

Genie蛋白质设计深度学习等变扩散氨基酸残基Github开源项目
Sharing-Is-Caring: fictions.ai团队的AI生成工作流与工具分享

Sharing-Is-Caring: fictions.ai团队的AI生成工作流与工具分享

探索fictions.ai团队在GitHub上分享的AI生成工作流和工具,包括ComfyUI工作流、IPAdapter、ControlNet等技术的详细使用指南。

ComfyUIAI绘图工作流IPAdapterControlNetGithub开源项目
CUDA C++ 核心计算库 (CCCL): 加速 CUDA C++ 开发的利器

CUDA C++ 核心计算库 (CCCL): 加速 CUDA C++ 开发的利器

CUDA C++ 核心计算库 (CCCL) 是 NVIDIA 推出的一套统一的 CUDA C++ 库集合,旨在简化 CUDA C++ 开发,提高开发效率和性能。本文将详细介绍 CCCL 的特性、组成及使用方法,帮助开发者充分利用这一强大工具。

CUDAC++CCCLNVIDIA并行计算Github开源项目
Docker Stacks: Jupyter 应用的即用型 Docker 镜像集

Docker Stacks: Jupyter 应用的即用型 Docker 镜像集

探索 Jupyter Docker Stacks 项目,了解其提供的各种预构建 Docker 镜像,以及如何利用这些镜像快速部署 Jupyter 应用和交互式计算环境。

JupyterDocker容器镜像JupyterLab数据科学Github开源项目
NCCL: NVIDIA的高性能多GPU通信库

NCCL: NVIDIA的高性能多GPU通信库

NCCL是NVIDIA开发的一个优化的多GPU通信原语库,支持各种集合通信操作,能够在PCIe、NVLink等不同互连架构上实现高带宽低延迟的GPU间通信。

NCCLGPU通信NVIDIA并行计算深度学习Github开源项目