在人工智能和语音合成技术飞速发展的今天,一个名为 StableTTS 的项目正在为文本转语音(Text-to-Speech,TTS)领域带来新的突破。这个由 GitHub 用户 KdaiP 开发的开源项目,融合了流匹配(flow-matching)和扩散变换器(Diffusion Transformer,DiT)技术,为中英文语音生成提供了一个快速、轻量且高效的解决方案。
StableTTS 作为首个尝试结合流匹配和 DiT 的开源 TTS 模型,其创新性令人瞩目。这个灵感来源于 Stable Diffusion 3 的项目,仅用 10M 的参数就能实现出色的中英文语音生成效果。以下是 StableTTS 的几个关键特点:
StableTTS 的核心架构融合了多项先进技术,以下是其主要组成部分:
扩散卷积变换器块:借鉴自 Hierspeech++,结合了原始 DiT 和 FFT(来自 FastSpeech 的前馈变换器)以提升韵律表现。
流匹配解码器:在 DiT 块之前添加了 FiLM 层,用于将时间步嵌入条件化到模型中。同时,在 DiT 之前还增加了三个 ConvNeXt 块,这有助于模型的收敛和提高音质。
参考编码器:用于捕捉说话人身份,使得模型在多说话人合成和训练中无需特定的说话人 ID。
StableTTS 提供了多种使用方式,满足不同用户的需求:
预训练模型:开发者提供了多个预训练模型,包括用于英文和中文的文本到梅尔频谱图模型,以及用于梅尔频谱图到波形转换的 Vocos 模型。这些模型可以从 Hugging Face 下载。
本地安装与推理:
pip install -r requirements.txt
安装所需依赖。inference.ipynb
文件中找到。webui.py
文件启动。模型训练:
preprocess.py
进行预处理。config.py
中修改 TrainConfig
以设置文件列表路径和训练参数。train.py
启动模型训练过程。StableTTS 的出现为多个领域带来了新的可能性: