StableTTS

使用流匹配和DiT的下一代TTS模型，灵感来自Stable Diffusion 3。

</div>

介绍

作为首个尝试结合流匹配和DiT的开源TTS模型，StableTTS是一个快速、轻量级的中英文语音生成TTS模型。它仅有1000万个参数。

✨ Huggingface演示： 中文版英文版

我们提供了可用于推理、微调和网页界面的预训练模型。只需下载并将模型放置在./checkpoints目录中即可开始使用。

更大的模型、更好的预训练模型和多语言模型即将推出...

pip install -r requirements.txt

有关详细的推理说明，请参阅inference.ipynb

我们还提供了基于gradio的网页界面，请参阅webui.py

使用StableTTS训练您的模型设计得简单高效。以下是开始的方法：

生成文本和音频对：生成文本和音频对文件列表，如./filelists/example.txt。一些开源数据集的处理方法可以在./recipes中找到。
运行预处理：调整preprocess.py中的DataConfig以设置输入和输出路径，然后运行脚本。这将根据您的列表处理音频和文本，输出包含梅尔特征和音素路径的JSON文件。注意：对于英语或日语文本处理，请确保在DataConfig中将language = 'chinese'更改为相应语言。

注意：由于我们在训练时使用reference encoder来捕捉说话人身份，因此在多说话人合成和训练中不需要说话人ID。

注意：对于微调，请下载预训练模型并将其放置在TrainConfig中指定的model_save_path目录中。训练脚本将自动检测并加载预训练的检查点。

请随意探索和修改config.py中的设置以调整超参数！

我们使用来自Hierspeech++的扩散卷积Transformer块，它是原始DiT和FFT（来自fastspeech的前馈Transformer）的组合，以获得更好的韵律。
在流匹配解码器中，我们在DiT块之前添加了一个FiLM层，以将时间步嵌入条件化到模型中。我们还在DiT之前添加了三个ConvNeXt块。我们发现这有助于模型收敛和提高音质。