mms-tts-eng

mms-tts-eng项目介绍

项目概述

mms-tts-eng是Facebook公司Massively Multilingual Speech(MMS)项目的一部分，专门用于英语文本到语音(TTS)转换的模型。MMS项目旨在为多种语言提供语音技术支持，覆盖了广泛的语言范围。mms-tts-eng模型是基于VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)架构开发的，能够将英语文本转换为高质量的语音输出。

技术特点

该模型采用了条件变分自编码器(VAE)的结构，包括后验编码器、解码器和条件先验。它使用基于流的模块预测声谱图特征，该模块由基于Transformer的文本编码器和多个耦合层组成。模型还包含一个随机持续时间预测器，允许从相同的输入文本合成具有不同节奏的语音，增强了模型的表现力。

训练过程中，模型采用了变分下界和对抗训练相结合的损失函数。为了提高模型的表现力，对条件先验分布应用了归一化流。在推理过程中，文本编码根据持续时间预测模块进行上采样，然后通过流模块和HiFi-GAN解码器的级联映射到波形。

使用方法

使用mms-tts-eng模型非常简单。首先需要安装最新版本的Transformers库：

pip install --upgrade transformers accelerate

然后可以使用以下代码进行推理：

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("facebook/mms-tts-eng")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")

text = "some example text in the English language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform