深度学习最佳AI工具集合:网站、应用和开源项目

bigvsan

bigvsan

BigVSAN神经声码器

GAN神经声码器结合切片对抗网络的创新音频生成模型

GigaSpeech

GigaSpeech

GigaSpeech语音识别

多领域英语语音识别数据集提供10,000小时转录音频

RectifiedFlow

RectifiedFlow

Rectified Flow生成模型

直线路径优化的快速数据生成与传输技术

Latte

Latte

Latte视频生成

创新的潜在扩散Transformer视频生成技术

SiT

SiT

SiT生成模型

可扩展插值变换器 融合流模型和扩散模型的图像生成新方法

autoregressive-diffusion-pytorch

autoregressive-diffusion-pytorch

自回归扩散图像生成

自回归扩散模型:无向量量化的图像生成方法

mar

mar

MAR图像生成

创新自回归图像生成方法

audio-ai-timeline

audio-ai-timeline

AI音频生成文本转语音

音频AI领域2023年重大进展及模型概览

Awesome-Sketch-Based-Applications

Awesome-Sketch-Based-Applications

Sketch-Based Applications图像合成

草图应用资源汇总 涵盖多领域前沿技术

SadTalker

SadTalker

SadTalkerAI动画

将单张肖像图片与音频结合生成逼真的动态说话视频

Wav2Lip

Wav2Lip

Wav2Lip唇形同步

先进的AI视频口型同步技术

versatile_audio_super_resolution

versatile_audio_super_resolution

AudioSR音频超分辨率

开源音频超分辨率工具 适用多种类型和采样率

multimodal

multimodal

TorchMultimodal多模态模型

PyTorch多模态模型开发框架

audio2photoreal

audio2photoreal

音频到真人化身AI合成

AI驱动的音频转人物对话视频技术

speech-driven-animation

speech-driven-animation

Speech-Driven Animation视频动画

语音驱动的端到端面部动画合成模型

bayesian-flow-networks

bayesian-flow-networks

Bayesian Flow Networks机器学习

将贝叶斯方法与流网络相结合的生成模型新框架

lectures

lectures

CUDAGPU编程

GPU并行计算技术与高性能编程系列讲座

einx

einx

einx张量操作

跨框架张量运算统一接口库

detr

detr

DETR目标检测

Transformer架构重塑目标检测流程

encodec.cpp

encodec.cpp

Encodec音频编解码

Meta's Encodec音频编解码器的C/C++高性能实现