深度学习最佳AI工具集合:网站、应用和开源项目

ThunderKittens

ThunderKittens

ThunderKittensCUDA

高效瓦片原语框架助力深度学习内核开发

vocos

vocos

Vocos神经声码器

基于傅里叶变换的快速神经声码器

mamba

mamba

Mamba状态空间模型

线性时间序列建模的突破性架构

audiocraft

audiocraft

AudioCraft音频生成

Facebook开源的AI音频生成工具库

dasp-pytorch

dasp-pytorch

PyTorch音频处理

基于PyTorch的可微分音频信号处理器库

friendly-stable-audio-tools

friendly-stable-audio-tools

Stable AudioAI音频生成

改进后的Stable Audio Tools开源框架支持音频生成模型训练和推理

torchdiffeq

torchdiffeq

PyTorchODE求解器

可微分常微分方程求解器库 PyTorch实现

naturalspeech2-pytorch

naturalspeech2-pytorch

语音合成深度学习

NaturalSpeech 2在PyTorch中的开源实现

coqui-ai-TTS

coqui-ai-TTS

Coqui TTS文本转语音

先进的多语言文本转语音库 支持1100多种语言

whisper-vits-svc

whisper-vits-svc

VITS语音转换

基于VITS的端到端歌声转换开源项目

Awesome-Diffusion-Transformers

Awesome-Diffusion-Transformers

Diffusion TransformersAI生成

扩散模型与Transformer融合的前沿研究进展汇总

wtpsplit

wtpsplit

SaT文本分割

多语言文本分割工具 支持85种语言的高效句子和段落分割

sherpa

sherpa

语音识别深度学习

基于PyTorch的开源E2E语音识别框架 支持C++和Python

mmengine

mmengine

MMEnginePyTorch

深度学习训练引擎支持大规模模型训练和多种策略

mmcv

mmcv

MMCVOpenMMLab

OpenMMLab开源计算机视觉基础库

latent-consistency-model

latent-consistency-model

Latent Consistency ModelsAI绘图

高效快速的少步推理图像合成模型

unified-io-2

unified-io-2

Unified-IO 2多模态模型

跨模态人工智能的开源新标杆

BigVGAN

BigVGAN

BigVGAN神经声码器

大规模训练的通用神经网络声码器

FastSAM

FastSAM

Fast Segment Anything图像分割

全景分割模型 速度提升50倍且性能可比SAM

Vision-RWKV

Vision-RWKV

Vision-RWKV计算机视觉

基于RWKV架构的高效视觉感知模型