FastDiff: 高质量语音合成的快速条件扩散模型

黄荣杰, 林永愉, 王军, 苏丹, 余东, 任怡, 赵洲

这是FastDiff (IJCAI'22)在PyTorch上的实现：一种能够高效生成高保真语音的条件扩散概率模型。

我们在此仓库中提供了我们的实现和预训练模型并作为开源项目发布。

访问我们的演示页面以获取音频样例。

我们的后续工作可能也会引起你的兴趣：ProDiff (ACM Multimedia'22) GitHub

新闻

2021年4月22日：FastDiff 被 IJCAI 2022 接受。
2022年6月21日：提供了 LJSpeech 检查点和演示代码。
2022年8月12日：提供了 VCTK/LibriTTS 检查点。
2022年8月25日：提供了 FastDiff (tacotron) 。
2022年9月：我们发布了后续工作 ProDiff (ACM Multimedia'22) GitHub，进一步优化了速度和质量的权衡。

快速开始

我们提供了一个示例，展示了如何使用FastDiff生成高保真的样本。

要在自己的数据集中尝试，只需在本地机器上克隆此仓库，并且需要 NVIDIA GPU + CUDA cuDNN，然后遵循以下说明。

支持的数据集和预训练模型

你还可以使用我们在这里提供的预训练模型。每个文件夹的详细信息如下：

数据集	配置文件
LJSpeech	`modules/FastDiff/config/FastDiff.yaml`
LibriTTS	`modules/FastDiff/config/FastDiff_libritts.yaml`
VCTK	`modules/FastDiff/config/FastDiff_vctk.yaml`
LJSpeech(Tacotron)	`modules/FastDiff/config/FastDiff_tacotron.yaml`

很快会支持更多的数据集。

将检查点放在 checkpoints/$your_experiment_name/model_ckpt_steps_*.ckpt。

依赖项

请参见 requirement.txt 中的要求：

多GPU支持

默认情况下，该实现使用 torch.cuda.device_count() 返回的所有 GPU 并行使用。你可以在运行训练模块之前，通过设置 CUDA_DEVICES_AVAILABLE 环境变量来指定使用哪些 GPU。

文本到语音合成的推理

使用 ProDiff

我们在和 GitHub 提供了更高效和稳定的管道。

使用 Tacotron

下载 LJSpeech 检查点以对 Tacotron 输出进行神经声码转换 here。我们在 egs/demo_tacotron.ipynb 中提供了一个演示。

使用 Portaspeech、DiffSpeech、FastSpeech 2

下载LJSpeech检查点并将其放入 checkpoint/FastDiff/model_ckpt_steps_*.ckpt 。
指定输入 $text，并选择 TTS 模型的整数类型索引 $model_index。0（Portaspeech, 任等人），1（FastSpeech 2, 任等人），或 2（DiffSpeech, 刘等人）。
设置逆向采样的 N，这在质量和速度之间进行权衡。
运行以下命令。

CUDA_VISIBLE_DEVICES=$GPU python egs/demo_tts.py --N $N --text $text --model $model_index

生成的 wav 文件默认保存在 checkpoints/FastDiff/ 中。<br> 注意：为了获得更好的质量，推荐对 FastDiff 模型进行微调。

从 wav 文件推理

创建 wavs 目录并将 wav 文件复制到该目录。
设置逆向采样的 N，这在质量和速度之间进行权衡。
运行以下命令。

CUDA_VISIBLE_DEVICES=$GPU python tasks/run.py --config $path/to/config  --exp_name $your_experiment_name --infer --hparams='test_input_dir=wavs,N=$N'

生成的 wav 文件默认保存在 checkpoints/$your_experiment_name/ 中。<br>

端到端语音合成推理

创建 mels 目录并将生成的梅尔频谱文件复制到该目录。<br> 你可以使用Tacotron2、 Glow-TTS等生成梅尔频谱。
设置逆向采样的 N，这在质量和速度之间进行权衡。
运行以下命令。

CUDA_VISIBLE_DEVICES=$GPU python tasks/run.py --config $path/to/config --exp_name $your_experiment_name --infer --hparams='test_mel_dir=mels,use_wav=False,N=$N'

生成的 wav 文件默认保存在 checkpoints/$your_experiment_name/ 中。<br>

注意：如果发现输出的 wav 文件有噪音，很可能是因为声学和声码器模型之间的梅尔预处理不匹配。

训练你自己的模型

数据准备和配置

在配置文件中设置 raw_data_dir, processed_data_dir, binary_data_dir。对于自定义数据集，请在 modules/FastDiff/config/base.yaml 中指定音频预处理的配置。
将数据集下载到 raw_data_dir。注意：数据集结构需要遵循 egs/datasets/audio/*/pre_align.py，或者你可以根据你的数据集重写 pre_align.py。
预处理数据集

# 预处理步骤：统一文件结构。
python data_gen/tts/bin/pre_align.py --config $path/to/config
# 二值化步骤：二值化数据以提高IO效率。
CUDA_VISIBLE_DEVICES=$GPU python data_gen/tts/bin/binarize.py --config $path/to/config

我们还提供了处理过的LJSpeech数据集 here。

训练细化网络

CUDA_VISIBLE_DEVICES=$GPU python tasks/run.py --config $path/to/config  --exp_name $your_experiment_name --reset

训练噪声预测器网络（可选）

请参考Bilateral Denoising Diffusion Models (BDDMs)。

噪声调度（可选）

你可以此时使用我们预先推导的噪声调度，或者参考Bilateral Denoising Diffusion Models (BDDMs)。

推理

CUDA_VISIBLE_DEVICES=$GPU python tasks/run.py --config $path/to/config  --exp_name $your_experiment_name --infer

致谢

此实现使用了以下GitHub仓库的部分代码： NATSpeech， Tacotron2，和 DiffWave-Vocoder 如我们的代码中所述。

引用

如果你在研究中发现此代码有用，请考虑引用：

@article{huang2022fastdiff,
  title={FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis},
  author={Huang, Rongjie and Lam, Max WY and Wang, Jun and Su, Dan and Yu, Dong and Ren, Yi and Zhao, Zhou},
  booktitle = {Proceedings of the Thirty-First International Joint Conference on
               Artificial Intelligence, {IJCAI-22}},
  publisher = {International Joint Conferences on Artificial Intelligence Organization},
  year={2022}
}