Bert-VITS2-ext 项目的主要目标是扩展 Bert-VITS2 的功能,尤其是在文本转语音(TTS)的同时能够生成对应的脸部表情数据。这使得应用于影视制作、虚拟主播以及其他需要视听同步的领域成为可能。
该项目已经在多个平台上展示了其效果,包括哔哩哔哩和 YouTube。以下是一些效果展示链接:
Bert-VITS2-ext 已被成功扩展以支持 CosyVoice 表情测试,实现了更真实的表情生成功能。CosyVoice表情测试
在 GPT-SoVITS 上重新进行训练的初步测试结果不理想,因此暂时通过 Bert-VITS2-ext 的模型部分进行移植来完成表情生成的测试。GPT-SoVITS 表情测试
项目参考了 VITS 论文中的网络结构,在输入文本编码后,将其转换为隐变量,并在解码前生成表情值。这一过程中冻结了原始网络的参数,增加了处理层以完成隐变量到表情值的映射。
数据采集通过 Live Link Face 实现,连续采集语音和表情值并记录。对此数据进行预处理后,通过独立的模型训练生成训练和验证所需的数据。
使用已准备好的数据进行模型训练,并在推理阶段通过生 成音频、隐变量以及动画数据来验证表情生成效果。生成的动画数据可同步展示在虚拟环境中。
项目使用后验编码器将音频转换为隐变量,再从隐变量生成对应的表情,实现了声音到动画同步的创新应用。
项目使用 MotionGPT 实现语音和表情数据驱动的身体动画生成,未直接与 Unreal Engine 的骨骼动画对接,但通过协议转换可在 MetaHuman 上预览。
Bert-VITS2-ext 项目通过扩展和创新,将文本转语音与表情生成有机结合,为用户提供了一个高效的多模态同步解决方案,并在虚拟现实等领域展示了广泛的应用潜力。


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发 展的空间,界面友好,适合所有级别的设计师和创意工作者。

