SadTalker

<div> <a target='_blank'>张文轩 *,1,2 </a>&emsp; <a href='https://vinthony.github.io/' target='_blank'>寸晓东 *,2</a>&emsp; <a href='https://xuanwangvc.github.io/' target='_blank'>王轩 3</a>&emsp; <a href='https://yzhang2016.github.io/' target='_blank'>张勇 2</a>&emsp; <a href='https://xishen0220.github.io/' target='_blank'>沈曦 2</a>&emsp; <a href='https://yuguo-xjtu.github.io/' target='_blank'>郭宇1 </a>&emsp; <a href='https://scholar.google.com/citations?hl=zh-CN&user=4oXBp9UAAAAJ' target='_blank'>单瀛 2 </a>&emsp; <a target='_blank'>王飞 1 </a>&emsp; </div> <div> 1 西安交通大学 &emsp; 2 腾讯AI实验室 &emsp; 3 蚂蚁集团 &emsp; </div> <a href='https://arxiv.org/abs/2211.12194' target='_blank'>CVPR 2023</a>

sadtalker

简而言之：单个人像图片 🙎‍♂️ + 音频 🎤 = 会说话的头像视频 🎞.

</div>

亮点

许可证已更新为Apache 2.0，我们已移除非商业用途限制
SadTalker现已正式集成到Discord中，您可以通过发送文件免费使用。您还可以从文本提示生成高质量视频。加入：
我们发布了一个stable-diffusion-webui扩展。查看更多详情此处。演示视频
全图模式现已可用！更多详情...

v0.0.1版本的静态+增强效果	v0.0.2版本的静态+增强效果	输入图片 @bagbag1815
<video src="https://user-images.githubusercontent.com/48216707/229484996-5d7be64f-2553-4c9e-a452-c5cf0b8ebafe.mp4" type="video/mp4"> </video>	<video src="https://user-images.githubusercontent.com/4397546/230717873-355b7bf3-d3de-49f9-a439-9220e623fce7.mp4" type="video/mp4"> </video>	<img src='https://yellow-cdn.veclightyear.com/835a84d5/24c5f2f2-c1a4-41c2-b9d5-5ae4473cb49f.png' width='380'>

现已提供多种新模式（静态、参考和调整大小模式）！
我们很高兴看到更多社区演示出现在哔哩哔哩、YouTube和X (#sadtalker)上。

更新日志

之前的更新日志可以在这里找到。

[2023.06.12]: 在WebUI扩展中添加了更多新功能，请参阅此处的讨论。
[2023.06.05]: 发布了新的512x512像素（测试版）人脸模型。修复了一些bug并提高了性能。
[2023.04.15]: @camenduru添加了一个WebUI Colab笔记本：
[2023.04.12]: 添加了更详细的WebUI安装文档，并修复了重新安装时的问题。
[2023.04.12]: 修复了由于第三方包导致的WebUI安全问题，并优化了sd-webui-extension中的输出路径。
[2023.04.08]: 在v0.0.2版本中，我们向生成的视频添加了标志水印以防止滥用。这个水印在后续版本中已被移除。
[2023.04.08]: 在v0.0.2版本中，我们添加了全图动画功能，并提供了从百度下载检查点的链接。我们还优化了增强器逻辑。

待办事项

我们正在issue #280中跟踪新的更新。

故障排除

如果您遇到任何问题，请在开issue之前阅读我们的常见问题解答。

1. 安装

社区教程：中文Windows教程 | 日本語コース（日语教程）。

Linux/Unix

安装Anaconda、Python和git。
创建环境并安装依赖。

git clone https://github.com/OpenTalker/SadTalker.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

### Coqui TTS是gradio演示的可选项。
### pip install TTS

Windows

这里有一个中文视频教程。您也可以按照以下说明操作：

安装Python 3.8并勾选"Add Python to PATH"。
手动安装git或使用Scoop：scoop install git。
安装ffmpeg，按照这个教程或使用scoop：scoop install ffmpeg。
通过运行git clone https://github.com/Winfredy/SadTalker.git下载SadTalker仓库。
在下载部分下载检查点和gfpgan模型。
以普通非管理员用户身份从Windows资源管理器运行start.bat，将启动一个基于Gradio的WebUI演示。

macOS

有关在macOS上安装SadTalker的教程可以在这里找到。

Docker、WSL等

请查看这里的其他教程。

2. 下载模型

您可以在Linux/macOS上运行以下脚本自动下载所有模型：

bash scripts/download_models.sh

我们还提供了一个离线补丁（gfpgan/），因此在生成时不会下载任何模型。

预训练模型

GFPGAN离线补丁

3. 快速开始

请阅读我们关于最佳实践和配置技巧的文档。

WebUI演示

在线演示：HuggingFace | SDWebUI-Colab | Colab

本地WebUI扩展：请参考WebUI文档。

本地gradio演示（推荐）：可以在本地运行类似于我们Hugging Face演示的Gradio实例：

## 您需要提前通过`pip install tts`手动安装TTS(https://github.com/coqui-ai/TTS)。
python app_sadtalker.py

您也可以更简单地启动它：

Windows：只需双击webui.bat，依赖项将自动安装。
Linux/Mac OS：运行bash webui.sh启动webui。

CLI用法

使用默认配置为肖像图像制作动画：

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 or picture.png> \
                    --enhancer gfpgan

结果将保存在results/$SOME_TIMESTAMP/*.mp4中。

全身/图像生成：

使用--still生成自然的全身视频。您可以添加enhancer来提高生成视频的质量。

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 或 picture.png> \
                    --result_dir <存储结果的文件> \
                    --still \
                    --preprocess full \
                    --enhancer gfpgan

更多示例、配置和提示可以在 >>> 最佳实践文档 <<<中找到。

引用

如果您在研究中使用了我们的工作，请考虑引用：

@article{zhang2022sadtalker,
  title={SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation},
  author={Zhang, Wenxuan and Cun, Xiaodong and Wang, Xuan and Zhang, Yong and Shen, Xi and Guo, Yu and Shan, Ying and Wang, Fei},
  journal={arXiv preprint arXiv:2211.12194},
  year={2022}
}

致谢

人脸渲染代码大量借鉴了zhanglonghao对face-vid2vid的复现和PIRender。我们感谢作者分享他们出色的代码。在训练过程中，我们还使用了来自Deep3DFaceReconstruction和Wav2lip的模型。我们感谢他们出色的工作。

我们还使用了以下第三方库：

人脸工具: https://github.com/xinntao/facexlib
人脸增强: https://github.com/TencentARC/GFPGAN
图像/视频增强:https://github.com/xinntao/Real-ESRGAN

扩展：

SadTalker-Video-Lip-Sync 来自 @Zz-ww: 用于视频唇形编辑的SadTalker

免责声明

这不是腾讯的官方产品。

1. 在使用本代码之前，请仔细阅读并遵守适用于本代码的开源许可。
2. 在使用本代码之前，请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行，不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据，请根据适用的法律法规采取必要的合规措施（如发布隐私政策、采取必要的数据安全策略等）。如果收集的数据涉及个人信息，必须获得用户同意（如适用）。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可，您无权使用腾讯合法拥有的名称或标识，如"腾讯"。否则，您可能承担法律责任。
5. 本开源代码不具备直接为最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示，作为您的产品的一部分为最终用户提供服务，或类似用途，请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动（包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等），或其他违反适用法律法规或违背社会公德和良好风俗的行为（包括提供不正确或虚假信息，传播色情、恐怖主义和暴力信息等）。否则，您可能承担法律责任。

标志：颜色和字体建议：ChatGPT，标志字体：Montserrat Alternates。

所有演示图像和音频的版权均来自社区用户或稳定扩散生成。如果您希望我们删除它们，请随时与我们联系。