VoiceCraft: 野外零样本语音编辑和文本转语音

简介

VoiceCraft是一个标记填充神经编解码语言模型，在野外数据(包括有声读物、网络视频和播客)的语音编辑和**零样本文本转语音(TTS)**任务上都达到了最先进的性能。

要克隆或编辑未见过的声音，VoiceCraft只需要几秒钟的参考音频。

如何运行推理

除了在Colab中运行Gradio外，还有三种方法：

在Google Colab中进行比Gradio UI更灵活的推理。请参阅快速入门colab
使用docker。请参阅快速入门docker
不使用docker。请参阅环境设置。如果选择此选项，您也可以在本地运行gradio
作为一个独立脚本，您可以轻松集成到其他项目中。请参阅快速入门命令行。

当您在docker镜像中或已安装所有依赖项时，请查看inference_tts.ipynb。

如果您想进行模型开发(如训练/微调)，我建议按照环境设置和训练进行操作。

新闻

:star: 2024年4月22日：330M/830M TTS增强模型已上线这里，通过gradio_app.py或inference_tts.ipynb加载它们！Replicate演示已上线，非常感谢@chenxwh！

:star: 2024年4月11日：VoiceCraft Gradio现已在HuggingFace Spaces上可用这里！非常感谢@zuev-stepan、@Sewlell、@pgsoar和@Ph0rk0z。

:star: 2024年4月5日：我在gigaspeech和1/5的librilight上用TTS目标微调了giga330M。权重在这里。确保最大提示+生成长度 <= 16秒(由于我们的计算资源有限，我们不得不在训练数据中删除长于16秒的话语)。更强大的模型即将推出，敬请期待！

:star: 2024年3月28日：giga330M和giga830M的模型权重已在HuggingFace🤗上上线这里！

待办事项

快速入门Colab

:star: 要尝试使用VoiceCraft进行语音编辑或TTS推理，最简单的方法是使用Google Colab。运行说明在Colab本身上。

尝试语音编辑
尝试TTS推理

快速入门命令行

:star: 要将其用作独立脚本，请查看tts_demo.py和speech_editing_demo.py。请务必先设置您的环境。如果没有参数，它们将运行本仓库其他地方用作示例的标准演示参数。您可以使用命令行参数指定独特的输入音频、目标转录和推理超参数。运行帮助命令以获取更多信息： python3 tts_demo.py -h

快速入门Docker

:star: 要尝试使用VoiceCraft进行TTS推理，您也可以使用docker。感谢@ubergarm和@jayc88实现这一功能。

已在Linux和Windows上测试，应该适用于任何安装了docker的主机。

# 1. 在有足够可用空间的驱动器上的目录中克隆仓库
git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft

# 2. 假设您已安装带有nvidia容器工具包的docker(Windows在驱动程序中内置了这个)
# https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/1.13.5/install-guide.html
# sudo apt-get install -y nvidia-container-toolkit-base || yay -Syu nvidia-container-toolkit || echo 等等...

# 3. 首先构建docker镜像
docker build --tag "voicecraft" .

# 4. 尝试启动现有容器，否则创建一个新容器并传入所有GPU
./start-jupyter.sh  # linux
start-jupyter.bat   # windows

# 5. 现在在主机上打开一个网页，访问以下命令底部显示的URL：
docker logs jupyter

# 6. 可选：从另一个终端查看内部
docker exec -it jupyter /bin/bash
export USER=(上面使用的你的linux用户名)
export HOME=/home/$USER
sudo apt-get update

# 7. 确认容器内可以看到显卡
nvidia-smi

# 8. 现在在浏览器中打开inference_tts.ipynb并逐个单元格运行
echo 祝你好运

环境设置

conda create -n voicecraft python=3.9.16
conda activate voicecraft

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1 # 这假设您的系统兼容CUDA 11.7，否则请查看https://pytorch.org/get-started/previous-versions/#v201
apt-get install ffmpeg # 如果您尚未安装ffmpeg
apt-get install espeak-ng # 下面安装的phonemizer的后端
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
# 安装MFA以获取强制对齐，这可能需要几分钟
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
# 安装MFA英语字典和模型
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
# pip install huggingface_hub
# conda install pocl # 上面给出了安装pocl的警告，不确定是否真的需要这个

# 运行ipynb
conda install -n voicecraft ipykernel --no-deps --force-reinstall

如果在运行时遇到版本问题，请查看environment.yml以获取精确匹配。

推理示例

查看inference_speech_editing.ipynb和inference_tts.ipynb

Gradio

在colab中运行

本地运行

环境设置后安装额外的依赖项：

apt-get install -y espeak espeak-data libespeak1 libespeak-dev
apt-get install -y festival*
apt-get install -y build-essential
apt-get install -y flac libasound2-dev libsndfile1-dev vorbis-tools
apt-get install -y libxml2-dev libxslt-dev zlib1g-dev
pip install -r gradio_requirements.txt

从终端或gradio_app.ipynb运行gradio服务器：

python gradio_app.py

它已准备好在默认URL上使用。

如何使用

(可选)选择模型
加载模型
转录
(可选)调整一些参数
运行
(可选)在长文本TTS模式下逐部分重新运行

一些功能

智能转录：只写您想生成的内容

TTS模式：零样本TTS

编辑模式：语音编辑

长文本TTS模式：轻松对长文本进行TTS

训练

要训练VoiceCraft模型，你需要准备以下部分：

语音样本及其对应的文字稿
使用如Encodec等工具将语音样本编码成代码
将文字稿转换为音素序列，并生成一个音素集（我们称之为vocab.txt）
清单（即元数据）

步骤1、2、3在./data/phonemize_encodec_encode_hf.py中处理，其中

通过HuggingFace下载Gigaspeech。注意，你需要签署一份协议才能下载该数据集（需要你的认证令牌）
音素序列和encodec代码也使用该脚本提取。

运行示例：

conda activate voicecraft
export CUDA_VISIBLE_DEVICES=0
cd ./data
python phonemize_encodec_encode_hf.py \
--dataset_size xs \
--download_to path/to/store_huggingface_downloads \
--save_dir path/to/store_extracted_codes_and_phonemes \
--encodec_model_path path/to/encodec_model \
--mega_batch_size 120 \
--batch_size 32 \
--max_len 30000

其中encodec_model_path可在这里获取。这个模型是在Gigaspeech XL上训练的，有5600万参数，4个码本，每个码本有2048个代码。详细信息在我们的论文中描述。如果在提取过程中遇到内存不足问题，请尝试减小batch_size和/或max_len。提取的代码、音素和vocab.txt将存储在path/to/store_extracted_codes_and_phonemes/${dataset_size}/{encodec_16khz_4codebooks,phonemes,vocab.txt}。

关于清单，请从这里下载train.txt和validation.txt，并将它们放在path/to/store_extracted_codes_and_phonemes/manifest/下。如果你想使用我们预训练的VoiceCraft模型，也请从这里下载vocab.txt（以确保音素到标记的匹配相同）。

现在，你可以开始训练了！

conda activate voicecraft
cd ./z_scripts
bash e830M.sh

准备自定义数据集的流程也是相同的。确保如果

微调

你也需要像训练一样完成步骤1-4，如果你要微调一个预训练模型，我建议使用AdamW进行优化以获得更好的稳定性。查看脚本./z_scripts/e830M_ft.sh。

如果你的数据集引入了在giga检查点中不存在的新音素（这很可能发生），请确保在构建词汇表时将原始音素与你的数据中的音素结合起来。并且你需要调整--text_vocab_size和--text_pad_token，使前者大于或等于你的词汇表大小，后者的值与--text_vocab_size相同（即--text_pad_token始终是最后一个标记）。此外，由于文本嵌入现在大小不同，请确保修改权重加载部分，以避免崩溃（你可以跳过加载text_embedding或只加载现有部分，并随机初始化新部分）

许可证

代码库遵循CC BY-NC-SA 4.0许可（LICENSE-CODE），模型权重遵循Coqui Public Model License 1.0.0（LICENSE-MODEL）。请注意，我们使用了一些来自其他仓库的代码，它们遵循不同的许可证：./models/codebooks_patterns.py遵循MIT许可；./models/modules、./steps/optim.py、data/tokenizer.py遵循Apache License, Version 2.0；我们使用的phonemizer遵循GNU 3.0许可。

致谢

我们感谢Feiteng的VALL-E复现，也感谢audiocraft团队开源的encodec。

引用

@article{peng2024voicecraft,
  author    = {Peng, Puyuan and Huang, Po-Yao and Mohamed, Abdelrahman and Harwath, David},
  title     = {VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild},
  journal   = {arXiv},
  year      = {2024},
}