Parler-TTS

Parler-TTS是一个轻量级的文本转语音（TTS）模型，可以生成高质量、自然流畅的语音，并能模仿特定说话者的风格（性别、音调、说话方式等）。这是对Stability AI的Dan Lyth和爱丁堡大学的Simon King所发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》中研究成果的复现。

与其他TTS模型不同，Parler-TTS是一个完全开源的发布版本。所有数据集、预处理、训练代码和权重都以宽松的许可证公开发布，使社区能够在我们的工作基础上开发他们自己的强大TTS模型。

本仓库包含Parler-TTS的推理和训练代码。它旨在与Data-Speech仓库配合使用，用于数据集标注。

[!重要] 2024年8月8日： 我们很自豪地发布两个新的Parler-TTS检查点：

Parler-TTS Mini，一个880M参数的模型。

Parler-TTS Large，一个2.3B参数的模型。

这些检查点已在45,000小时的有声读物数据上进行了训练。

此外，代码经过优化，生成速度大大提高：我们增加了SDPA和Flash Attention 2的兼容性，以及编译模型的功能。

📖 快速索引

安装
使用
- 🎲 使用随机语音
- 🎯 使用特定说话者
训练
演示
模型权重和数据集
优化推理速度

安装

Parler-TTS的依赖项很轻量，可以通过一行命令安装：

pip install git+https://github.com/huggingface/parler-tts.git

Apple Silicon用户需要运行以下命令以使用PyTorch（2.4）的每夜版构建，以支持bfloat16：

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

使用

[!提示] 你可以直接在这里的交互式演示中试用！

使用Parler-TTS就像说"你好"一样简单。只需一次性安装库：

pip install git+https://github.com/huggingface/parler-tts.git

🎲 随机语音

Parler-TTS经过训练，可以生成具有可控特征的语音，这些特征可以通过简单的文本提示来控制，例如：

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "嘿，你今天过得怎么样？"
description = "一位女性说话者以略带表情和生动的方式发言，语速和音调适中。录音质量非常高，说话者的声音清晰且非常贴近。"

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

🎯 使用特定说话者

为确保生成过程中说话者的一致性，此检查点还在34位说话者上进行了训练，每位说话者都有特定的名字（如Jon、Lea、Gary、Jenna、Mike、Laura）。

要利用这一特性，只需调整你的文本描述以指定使用哪位说话者："Jon的声音单调但语速略快，录音非常贴近，几乎没有背景噪音。"

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "嘿，你今天过得怎么样？"
description = "Jon的声音单调但语速略快，录音非常贴近，几乎没有背景噪音。"

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

提示：

包含"音频非常清晰"这个词来生成最高质量的音频，使用"音频非常嘈杂"来产生高水平的背景噪音
可以使用标点符号来控制生成的韵律，例如使用逗号来在语音中添加小的停顿
其他语音特征（性别、说话速度、音高和混响）可以直接通过提示词来控制

✨ 优化推理速度

我们设置了一个推理指南来加快生成速度。考虑使用SDPA、torch.compile和流式处理！

训练

训练文件夹包含了训练或微调你自己的Parler-TTS模型所需的所有信息。它包括：

[!重要] 简而言之： 在完成安装步骤后，你可以使用以下命令行重现Parler-TTS Mini v1训练配方：

accelerate launch ./training/run_parler_tts_training.py ./helpers/training_configs/starting_point_v1.json

[!重要] 你也可以按照这个微调指南在单一说话人数据集上进行实验。

致谢

这个库建立在许多开源巨人的基础之上，我们想向他们提供这些工具表示最衷心的感谢！

特别感谢：

来自Stability AI和爱丁堡大学的Dan Lyth和Simon King，发表了如此有前景且清晰的研究论文：使用合成注释进行高保真文本转语音的自然语言指导。
使用的众多库，即🤗 datasets、🤗 accelerate、jiwer、wandb和🤗 transformers。
Descript提供的DAC编解码器模型
Hugging Face 🤗 提供计算资源和时间进行探索！

引用

如果你发现这个仓库有用，请考虑引用这项工作以及原始的Stability AI论文：

@misc{lacombe-etal-2024-parler-tts,
  author = {Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi},
  title = {Parler-TTS},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/huggingface/parler-tts}}
}

@misc{lyth2024natural,
      title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
      author={Dan Lyth and Simon King},
      year={2024},
      eprint={2402.01912},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

贡献

我们欢迎贡献，因为这个项目为改进和探索提供了许多可能性。

具体来说，我们正在寻找提高质量和速度的方法：

数据集：
- 在更多数据上训练
- 添加更多特征，如口音
训练：
- 添加PEFT兼容性以进行Lora微调
- 添加无描述列训练的可能性
- 添加notebook训练
- 探索多语言训练
- 探索单一说话人微调
- 探索更多架构
优化：
- 编译和静态缓存
- 支持FA2和SDPA
评估：
- 添加更多评估指标