XTTS-WebUI: 强大的文本转语音工具

xtts-webui

XTTS-WebUI简介

XTTS-WebUI是一个基于XTTS (eXtended Text-To-Speech)技术的Web界面,旨在为用户提供强大而易用的文本转语音工具。它不仅集成了XTTS的核心功能,还结合了多种神经网络和音频处理工具,以提升语音合成的质量和灵活性。

XTTS-WebUI界面

主要特性

XTTS-WebUI具有以下几个主要特性:

简单易用的XTTSv2操作界面
支持批量处理,可以一次性为大量文件配音
能够翻译任何音频并保留原始声音特征
自动使用神经网络和音频工具改善生成结果
支持模型微调,可以立即使用微调后的模型
集成了RVC、OpenVoice、Resemble Enhance等工具,可单独或组合使用
可自定义XTTS生成参数,支持多个说话人样本

这些特性使XTTS-WebUI成为一个功能全面、灵活性高的文本转语音工具,能够满足不同用户的多样化需求。

安装指南

XTTS-WebUI提供了多种安装方式,用户可以根据自己的需求和技术水平选择合适的方法。

便携版

对于Windows用户,XTTS-WebUI提供了一个便携版本,无需安装任何依赖即可使用。用户只需下载便携版压缩包并解压,就可以直接运行程序。使用便携版的唯一要求是拥有Windows系统和至少6GB显存的NVIDIA显卡。

脚本安装

对于希望通过脚本快速安装的用户,XTTS-WebUI提供了针对Windows和Linux系统的安装脚本。

Windows安装步骤:

运行install.bat文件
运行start_xtts_webui.bat启动Web界面
在浏览器中打开控制台显示的本地地址

Linux安装步骤:

运行install.sh文件
运行start_xtts_webui.sh启动Web界面
在浏览器中打开控制台显示的本地地址

手动安装

对于希望更精细控制安装过程的用户,XTTS-WebUI也提供了手动安装的方法:

确保已安装CUDA
克隆仓库: git clone https://github.com/daswer123/xtts-webui
进入项目目录: cd xtts-webui
创建虚拟环境: python -m venv venv
激活虚拟环境:
- Windows: venv\scripts\activate
- Linux: source venv\bin\activate

安装PyTorch和torchaudio:

pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118

安装其他依赖:
```
pip install -r requirements.txt
```

运行应用

安装完成后,用户可以通过以下步骤启动XTTS-WebUI:

激活虚拟环境
运行命令: python xtts_webui.py

XTTS-WebUI提供了多个运行时参数,用户可以根据需要进行配置:

-hs, --host: 指定绑定的主机地址(默认127.0.0.1)
-p, --port: 指定监听的端口号(默认8010)
-d, --device: 选择使用的设备(cpu或cuda)
-sf, --speaker_folder: 指定包含TTS样本的目录
-o, --output: 指定输出目录
-l, --language: 设置Web界面语言
-ms, --model-source: 定义模型来源
-v, --version: 指定使用的XTTS版本
--lowvram: 启用低显存模式
--deepspeed: 启用DeepSpeed加速
--share: 允许在本地计算机外部共享界面
--rvc: 启用RVC后处理

RVC集成

XTTS-WebUI集成了RVC(Real-time Voice Conversion)模块,用于对生成的音频进行后处理。要使用RVC功能,用户需要在启动时添加--rvc标志,或将其写入启动文件。

使用RVC时,用户需要将RVC模型上传到voice2voice/rvc文件夹中。每个模型应包含模型文件和索引文件(可选),并放置在单独的文件夹中。

与官方WebUI的区别

XTTS-WebUI在多个方面对官方WebUI进行了改进和扩展:

数据处理

更新了faster-whisper到0.10.0版本,支持选择larger-v3模型
将输出文件夹移至主文件夹内的output文件夹
支持向现有数据集添加新数据,无需重新处理已有数据
启用了VAD(Voice Activity Detection)过滤
创建数据集后会生成一个指定数据集语言的文件,便于重启界面时保持语言一致

XTTS编码器微调

可选择XTTS的基础模型,重新训练时无需再次下载模型
支持选择自定义模型作为训练的基础模型,实现对已微调模型的再微调
一键获取模型的优化版本
可选择是否在优化模型后删除训练文件夹
优化模型时,示例参考音频会被移至输出文件夹
检查指定语言与数据集语言的一致性

推理

在模型检查过程中可自定义推理设置

其他改进

支持在步骤中断后重新加载数据
移除了日志显示,解决重启时的问题
将完成的结果复制到ready文件夹,便于作为标准模型使用
增加了对日语的支持

未来计划

XTTS-WebUI的开发团队计划在未来添加以下功能:

添加进度和错误信息的状态栏
将训练功能集成到标准界面中
添加流式处理功能以检查结果
开发新的文本处理方法用于配音
在批处理时支持自定义说话人
添加API接口

结语

XTTS-WebUI是一个功能强大、易于使用的文本转语音工具,它不仅继承了XTTS的核心功能,还通过集成多种先进技术大大提升了语音合成的质量和灵活性。无论是个人用户还是专业开发者,都能在XTTS-WebUI中找到满足需求的功能。随着持续的更新和改进,XTTS-WebUI有望成为文本转语音领域的领先工具之一。

🔗 项目链接: XTTS-WebUI GitHub仓库