One-Shot-Voice-Cloning学习资料汇总 - 基于Unet-TTS的一句话语音克隆框架

One-Shot-Voice-Cloning项目简介

One-Shot-Voice-Cloning是一个基于Unet-TTS的一句话语音克隆开源框架,由CMsmartvoice团队开发。该项目具有以下特点:

只需要几秒钟的目标音频即可实现语音克隆,无需微调
可以合成任意文本的语音
能够嵌入停顿、重音等说话风格
对于领域外的风格迁移效果出色,特别是情感语音的模仿

项目的核心是基于跳跃连接的U-net结构,可以有效发现参考音频中说话人级别和句子级别的频谱特征细节,从而实现对复杂声学特征的准确推断以及说话风格的模仿。

Unet-TTS结构图

学习资源

1. 项目代码

GitHub仓库: https://github.com/CMsmartvoice/One-Shot-Voice-Cloning

该仓库包含了完整的项目代码,包括模型定义、训练脚本、推理代码等。

2. 在线Demo

Demo页面: https://cmsmartvoice.github.io/Unet-TTS/

在这个页面可以试听项目的语音克隆效果,包括不同情感、不同说话人的语音样本。

3. 论文

论文链接: https://arxiv.org/abs/2109.11115

这篇论文详细介绍了One-Shot-Voice-Cloning的技术原理和实验结果。

4. Colab笔记本

Colab链接: https://colab.research.google.com/drive/1sEDvKTJCY7uosb7TvTqwyUdwNPiv3pBW?usp=sharing

这个Colab笔记本提供了一个交互式的环境,可以直接运行One-Shot-Voice-Cloning的代码。

使用指南

安装依赖

项目只支持Linux系统,需要安装适当版本的TensorFlow和tensorflow-addons。默认使用TensorFlow 2.6和tensorflow-addons 0.14.0。

安装步骤:

cd One-Shot-Voice-Cloning/TensorFlowTTS
pip install .
# 或者
python setup.py install

运行推理

有两种方式可以运行语音克隆推理:

修改UnetTTS_syn.py文件中的参考音频文件,然后运行:

cd One-Shot-Voice-Cloning
CUDA_VISIBLE_DEVICES=0 python UnetTTS_syn.py

使用Notebook:

import sys
sys.path.append("<your repository's parent directory>/One-Shot-Voice-Cloning")
from UnetTTS_syn import UnetTTS

# 初始化模型
models_and_params = {...}  # 配置模型参数
Tts_handel = UnetTTS(models_and_params, text2id_mapper, feats_yaml)

# 合成语音
wav_fpath = "./reference_speech.wav"
ref_audio = preprocess_wav(wav_fpath, ...)
text = "一句话#3风格迁移#3语音合成系统"
syn_audio, _, _ = Tts_handel.one_shot_TTS(text, ref_audio)