DiffGAN-TTS

DiffGAN-TTS：高保真且高效的文本到语音转换

DiffGAN-TTS 是一款使用消噪扩散生成对抗网络（GAN）实现的高保真且高效的文本到语音（TTS）转换模型。这个项目提供了基于 PyTorch 的实现，旨在帮助研究人员和开发者便捷地进行自动语音合成的研究和应用。

DiffGAN-TTS 项目目前已经完成了简单版和双阶段版的实现。这些版本已经通过激活的浅扩散机制进行优化，用以达到更好的语音合成效果。对于想要了解实际音频效果的用户，可以访问提供的 demo 下载地址。

要运行该项目，首先需要安装一些 Python 的依赖包。这些依赖可以通过以下命令安装：

pip3 install -r requirements.txt

单人语音合成： 可以通过运行以下命令来合成语音：

python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET

多用户语音合成： 如果需要对多名说话者进行语音合成，可以使用以下命令：

python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

批量合成： 支持批量处理，用于合成多个句子：

python3 synthesize.py --source preprocessed_data/DATASET/val.txt --model MODEL --restore_step RESTORE_STEP --mode batch --dataset DATASET

属性控制： 用户可以通过命令行的参数调整合成语音的音调、音量和语速。例如，通过调整以下参数可以增加20%的语速并减少20%的音量：
```
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8
```

对于多说话者语音合成，可以下载并设置外部声纹模型。运行如下命令进行必要的预处理：

python3 prepare_align.py --dataset DATASET
python3 preprocess.py --dataset DATASET

简单版（naive）：通过以下命令训练简单版模型：
```
python3 train.py --model naive --dataset DATASET
```
辅助版（aux）：由预训练 FastSpeech2 组件支持，需要先训练 FastSpeech2 模型：
```
python3 train.py --model aux --dataset DATASET
```
浅扩散版（shallow）：在使用完毕辅助训练后的模型中，执行以下命令进行浅扩散版本的训练：
```
python3 train.py --model shallow --restore_step RESTORE_STEP --dataset DATASET
```