深度学习最佳AI工具集合:网站、应用和开源项目

如何用学术预算训练BERT模型

如何用学术预算训练BERT模型

本文介绍了一种在有限的计算资源和时间预算下预训练BERT模型的方法,通过软件优化、设计选择和超参数调优,可以在24小时内使用单个低端深度学习服务器训练出与BERT-base在GLUE任务上具有竞争力的模型。

BERT预训练微调深度学习自然语言处理Github开源项目
Bayesian-Torch: 深度学习中的贝叶斯神经网络层和不确定性估计库

Bayesian-Torch: 深度学习中的贝叶斯神经网络层和不确定性估计库

Bayesian-Torch是一个基于PyTorch的贝叶斯神经网络库,旨在为深度学习模型提供可靠的不确定性估计。它通过将确定性网络层替换为贝叶斯层,实现了从确定性模型到贝叶斯模型的无缝转换,为开发具有不确定性感知能力的AI模型提供了强大支持。

Bayesian-Torch不确定性估计深度学习PyTorch变分推断Github开源项目
《动手学深度学习》习题解答项目介绍

《动手学深度学习》习题解答项目介绍

由Datawhale社区发起的《动手学深度学习》习题解答项目,旨在帮助初学者快速理解和掌握深度学习知识,提供详细的习题解答和代码实现。

动手学深度学习习题解答深度学习PyTorchGitHubGithub开源项目
Avatarify Python:在视频会议中创建逼真的虚拟头像

Avatarify Python:在视频会议中创建逼真的虚拟头像

Avatarify Python是一个开源项目,可以为Zoom、Skype等视频会议软件生成逼真的虚拟头像。本文详细介绍了Avatarify Python的功能、安装使用方法以及最新进展。

Avatarify Python视频会议头像生成深度学习计算机视觉Github开源项目
PyTorch 人脸关键点检测高级流水线 TorchLM 全解析

PyTorch 人脸关键点检测高级流水线 TorchLM 全解析

TorchLM 是一个高级的人脸关键点检测流水线,支持训练、评估、导出、推理(Python/C++)以及 100 多种数据增强,可以通过 pip 轻松安装。本文将全面介绍 TorchLM 的功能特性、使用方法以及在人脸关键点检测领域的应用。

torchlm深度学习人脸关键点检测数据增强模型训练Github开源项目
高斯壳映射:高效3D人体生成的新方法

高斯壳映射:高效3D人体生成的新方法

GSM(Gaussian Shell Maps)是一种新的3D人体生成框架,它连接了最先进的生成器网络架构与新兴的3D高斯渲染原语,使用可铰接的多壳体支架,实现了高效、高质量的3D人体生成。

3D人体生成高斯贝壳图生成对抗网络3D渲染深度学习Github开源项目
SMIRK: 新一代3D面部表情重建技术的突破性进展

SMIRK: 新一代3D面部表情重建技术的突破性进展

SMIRK是一项创新的3D面部表情重建技术,能够从单张2D图像中精准还原极端、不对称和细微的面部表情,为计算机视觉和人机交互领域带来了新的可能性。

SMIRK3D人脸表情神经合成计算机视觉深度学习Github开源项目
ChatGLM-Tuning: 基于ChatGLM-6B和LoRA的开源微调方案

ChatGLM-Tuning: 基于ChatGLM-6B和LoRA的开源微调方案

本文介绍了一种基于ChatGLM-6B大语言模型和LoRA技术的经济实惠的微调方案,可以让开发者低成本地打造类似ChatGPT的对话系统。

ChatGLM-6BLoRA微调AI模型深度学习Github开源项目
C-Tran:大温哥华地区的公共交通系统

C-Tran:大温哥华地区的公共交通系统

C-Tran是服务于华盛顿州克拉克县的公共交通机构,为温哥华及周边地区提供巴士、快速公交、通勤铁路等多种公共交通服务,致力于为居民提供安全、便捷、可靠的出行选择。

图像分类Transformers多标签分类深度学习计算机视觉Github开源项目
AlphaFold: 革命性的蛋白质结构预测工具

AlphaFold: 革命性的蛋白质结构预测工具

AlphaFold是由DeepMind开发的人工智能系统,能够以前所未有的准确度预测蛋白质的三维结构,为生物学和医学研究带来重大突破。

AlphaFold蛋白质结构预测深度学习生物信息学DockerGithub开源项目
UNet.cu: 用纯CUDA实现UNet扩散模型

UNet.cu: 用纯CUDA实现UNet扩散模型

本文深入探讨了一个用纯C++/CUDA实现的UNet扩散模型训练项目。文章详细介绍了项目的背景、实现细节以及性能优化过程,为读者提供了一个学习CUDA编程和深度学习模型实现的宝贵案例。

UNetCUDA深度学习图像生成卷积神经网络Github开源项目
ExLlamaV2: 高效的本地大语言模型推理库

ExLlamaV2: 高效的本地大语言模型推理库

ExLlamaV2是一个用于在现代消费级GPU上本地运行大语言模型的快速推理库。它专注于内存效率和性能优化,支持4位量化和动态批处理,为本地AI应用提供了强大的基础设施。

ExLlamaAI模型GPU加速CUDA深度学习Github开源项目
DyNet: 动态神经网络工具包

DyNet: 动态神经网络工具包

DyNet是一个由卡内基梅隆大学和其他机构开发的神经网络库, 专为高效运行动态结构网络而设计。它用C++编写, 提供Python绑定, 支持CPU和GPU, 在自然语言处理等领域广泛应用。

DyNet神经网络库动态神经网络深度学习自然语言处理Github开源项目
MotionBERT: 人体运动表征学习的统一框架

MotionBERT: 人体运动表征学习的统一框架

MotionBERT是一个用于人体运动分析的统一预训练框架,可以处理3D姿态估计、基于骨架的动作识别和网格恢复等多个下游任务。该方法利用大规模异构人体运动数据源学习通用的运动表征,并在多个下游任务上取得了最先进的性能。

MotionBERT人体动作表示深度学习计算机视觉姿态估计Github开源项目
CoreNet: 苹果公司推出的深度神经网络训练库

CoreNet: 苹果公司推出的深度神经网络训练库

CoreNet是苹果公司开发的深度神经网络工具包,旨在帮助研究人员和工程师训练各种标准和新颖的小型和大规模模型,包括基础模型(如CLIP和LLM)、对象分类、对象检测和语义分割等多种任务。

CoreNet神经网络深度学习模型训练计算机视觉Github开源项目
生成式推荐系统的革新:基于HSTU架构的万亿参数顺序转换器

生成式推荐系统的革新:基于HSTU架构的万亿参数顺序转换器

本文深入探讨了Facebook Research团队最新提出的生成式推荐系统HSTU,这一基于万亿参数顺序转换器的架构在MovieLens和亚马逊图书等数据集上取得了显著性能提升,展现了生成式模型在推荐系统领域的巨大潜力。

推荐系统深度学习HSTU序列模型性能基准Github开源项目
GLIGEN: 开放式基于定位的文本到图像生成技术

GLIGEN: 开放式基于定位的文本到图像生成技术

GLIGEN是一种创新的文本到图像生成技术,它通过引入定位信息,使得用户可以更精确地控制生成图像的内容和布局。这项技术在保留预训练扩散模型强大知识的同时,赋予了模型新的能力,为图像生成领域带来了突破性进展。

GLIGEN文本到图像生成人工智能计算机视觉深度学习Github开源项目
RT-DETR: 实时目标检测的新突破

RT-DETR: 实时目标检测的新突破

RT-DETR是一种基于Transformer的实时目标检测模型,在速度和精度上都超越了YOLO系列,成为目前最先进的实时目标检测器。

RT-DETR实时目标检测CVPR 2024物体识别深度学习Github开源项目
BackgroundMattingV2: 实时高分辨率背景抠图技术的突破性进展

BackgroundMattingV2: 实时高分辨率背景抠图技术的突破性进展

BackgroundMattingV2是一种革命性的实时高分辨率背景抠图技术,可以在4K分辨率下实现30FPS的实时处理速度,为视频会议、直播等应用带来全新体验。本文将深入介绍该技术的原理、特点及应用前景。

背景抠图实时处理高分辨率深度学习计算机视觉Github开源项目
字典引导的场景文本识别: 基于CVPR 2021研究的深入探讨

字典引导的场景文本识别: 基于CVPR 2021研究的深入探讨

本文深入探讨了VinAI Research团队开发的字典引导场景文本识别方法,介绍了该项目的背景、核心思想、实现细节以及在实际应用中的优势,为读者提供了一个全面了解这一创新技术的机会。

场景文字识别VinText数据集字典引导深度学习计算机视觉Github开源项目