MuseTalk
MuseTalk:使用潜在空间修复实现实时高质量唇形同步
Yue Zhang <sup>*</sup>、
Minhao Liu<sup>*</sup>、
Zhaokang Chen、
Bin Wu<sup>†</sup>、
Yingjie He、
Chao Zhan、
Wenjiang Zhou
(<sup>*</sup>贡献相同,<sup>†</sup>通讯作者,benbinwu@tencent.com)
腾讯音乐娱乐集团 Lyra 实验室
github huggingface space 项目(即将推出) 技术报告(即将推出)
我们推出了 MuseTalk
,这是一个实时高质量的唇形同步模型(在 NVIDIA Tesla V100 上可达 30fps+)。MuseTalk 可以应用于输入视频,例如由 MuseV 生成的视频,作为一个完整的虚拟人解决方案。
:new: 更新:我们很高兴地宣布 MusePose 已经发布。MusePose 是一个图像到视频生成框架,可以根据姿势等控制信号生成虚拟人。结合 MuseV 和 MuseTalk,我们希望社区能够加入我们,朝着能够端到端生成具有全身运动和交互能力的虚拟人的愿景迈进。
招聘
加入腾讯音乐娱乐集团 Lyra 实验室!
我们目前正在招聘 AIGC 研究人员,包括实习生、应届毕业生和资深人才(实习、校招、社招)。
详情请查看以下两个链接或联系 zkangchen@tencent.com
概述
MuseTalk
是一个实时高质量的音频驱动唇形同步模型,在 ft-mse-vae
的潜在空间中训练,它具有以下特点:
- 根据输入音频修改未见过的人脸,人脸区域大小为
256 x 256
。
- 支持多种语言的音频,如中文、英文和日语。
- 在 NVIDIA Tesla V100 上支持实时推理,可达 30fps+。
- 支持修改人脸区域的中心点,这显著影响生成结果。
- 提供在 HDTF 数据集上训练的检查点。
- 训练代码(即将推出)。
新闻
- [2024/04/02] 发布 MuseTalk 项目和预训练模型。
- [2024/04/16] 在 HuggingFace Spaces 上发布 Gradio 演示(感谢 HF 团队的社区资助)
- [2024/04/17] :mega: 我们发布了一个使用 MuseTalk 进行实时推理的流程。
模型
MuseTalk 在潜在空间中训练,其中图像由冻结的 VAE 编码。音频由冻结的 whisper-tiny
模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4
的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。
请注意,尽管我们使用了与 Stable Diffusion 非常相似的架构,但 MuseTalk 与之不同,它不是扩散模型。相反,MuseTalk 通过单步在潜在空间进行修复操作。
案例展示
MuseV + MuseTalk 让人物照片栩栩如生!
<table class="center">
<tr style="font-weight: bolder;text-align:center;">
<td width="33%">图片</td>
<td width="33%">MuseV</td>
<td width="33%">+MuseTalk</td>
</tr>
<tr>
<td>
<img src=assets/demo/musk/musk.png width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/4a4bb2d1-9d14-4ca9-85c8-7f19c39f712e controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/b2a879c2-e23a-4d39-911d-51f0343218e4 controls preload></video>
</td>
</tr>
<tr>
<td>
<img src=assets/demo/yongen/yongen.jpeg width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/57ef9dee-a9fd-4dc8-839b-3fbbbf0ff3f4 controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/94d8dcba-1bcd-4b54-9d1d-8b6fc53228f0 controls preload></video>
</td>
</tr>
<tr>
<td>
<img src=assets/demo/sit/sit.jpeg width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/5fbab81b-d3f2-4c75-abb5-14c76e51769e controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/f8100f4a-3df8-4151-8de2-291b09269f66 controls preload></video>
</td>
</tr>
<tr>
<td>
<img src=assets/demo/man/man.png width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/a6e7d431-5643-4745-9868-8b423a454153 controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/6ccf7bc7-cb48-42de-85bd-076d5ee8a623 controls preload></video>
</td>
</tr>
<tr>
<td>
<img src=assets/demo/monalisa/monalisa.png width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/1568f604-a34f-4526-a13a-7d282aa2e773 controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/a40784fc-a885-4c1f-9b7e-8f87b7caf4e0 controls preload></video>
</td>
</tr>
<tr>
<td>
<img src=assets/demo/sun1/sun.png width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/37a3a666-7b90-4244-8d3a-058cb0e44107 controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/172f4ff1-d432-45bd-a5a7-a07dec33a26b controls preload></video>
</td>
</tr>
<tr>
<td>
<img src=assets/demo/sun2/sun.png width="95%">
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/37a3a666-7b90-4244-8d3a-058cb0e44107 controls preload></video>
</td>
<td >
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/85a6873d-a028-4cce-af2b-6c59a1f2971d controls preload></video>
</td>
</tr>
</table >
- 最后两行的人物"孙新颖"是一位超模网红。您可以在抖音上关注她。
视频配音
<table class="center">
<tr style="font-weight: bolder;text-align:center;">
<td width="70%">MuseTalk</td>
<td width="30%">原始视频</td>
</tr>
<tr>
<td>
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/4d7c5fa1-3550-4d52-8ed2-52f158150f24 controls preload></video>
</td>
<td>
<a href="//www.bilibili.com/video/BV1wT411b7HU">链接</a>
<href src=""></href>
</td>
</tr>
</table>
- 对于视频配音,我们应用了一个自主开发的工具,可以识别说话的人。
一些有趣的视频!
<table class="center">
<tr style="font-weight: bolder;text-align:center;">
<td width="50%">图片</td>
<td width="50%">MuseV + MuseTalk</td>
</tr>
<tr>
<td>
<img src=assets/demo/video1/video1.png width="95%">
</td>
<td>
<video src=https://github.com/TMElyralab/MuseTalk/assets/163980830/1f02f9c6-8b98-475e-86b8-82ebee82fe0d controls preload></video>
</td>
</tr>
</table>
待办事项:
入门指南
我们为新用户提供了一个详细的教程,介绍MuseTalk的安装和基本使用方法:
第三方集成
感谢第三方集成,这使得安装和使用对每个人来说都更加方便。
我们也希望您注意,我们没有验证、维护或更新第三方集成。具体结果请参考本项目。
安装
要准备Python环境并安装额外的包,如opencv、diffusers、mmcv等,请按以下步骤操作:
构建环境
我们建议Python版本>=3.10,CUDA版本=11.7。然后按如下方式构建环境:
pip install -r requirements.txt
mmlab包
pip install --no-cache-dir -U openmim
mim install mmengine
mim install "mmcv>=2.0.1"
mim install "mmdet>=3.1.0"
mim install "mmpose>=1.1.0"
下载ffmpeg-static
下载ffmpeg-static并
export FFMPEG_PATH=/path/to/ffmpeg