VITS2 是一种新型的单阶段文本到语音合成模型,旨在提高语音合成的自然性和效率。这个模型由韩国 SK Telecom 的研究团队,包括 Jungil Kong 等人,开发并发布。研究团队结合对抗式学习和架构设计,克服了以往单阶段模型在不自然现象、计算效率和对音素转换强依赖等方面的不足,使语音合成更加自然且高效。
传统的文本到语音系统通常采用两阶段流水线方法,虽然功能强大,但存在效率低下等问题。近年来,随着单阶段方法的进步,单阶段模型在性能上已经超越了传统的两阶段系统。然而,这些单阶段模型仍然存在间歇性的不自然表现、计算效率不高以及对音素转换高度依赖等问题。
为了应对这些挑战,VITS2 提出了改进的结构和训练机制。主要通过以下几个方面的改进来提升语音合成的自然性和效率:
团队在网站上提供了 VITS2 的语音合成演示,用户可以通过在线演示体验模型的卓越性能。
项目提供完整的代码库和实施指南,用户可以通过 GitHub 仓库获取代码并按照指南进行模型安装和运行。目前支持的数据集包括 LJSpeech 和 VCTK,用户也可以自行使用自定义数据集。