Talking_Face_Avatar

<b>会说话的头像: Leonardo.ai API生成的单个肖像图片 🙎‍♂️ + ElevenLabs TTS API生成的音频 🎤 = 会说话的头像视频 🎞.</b>

Leonardo.ai

前往 Leonardo.Ai 输入你的提示词和反向提示词来生成艺术图像

这里有一些资源:Leonardo.ai YouTube视频 Leonardo.ai YouTube视频教程

<table class="center"> <tr> <td style="text-align:center;"><b>Leonardo.ai 图像生成</b></td> <td style="text-align:center;"><b>Leonardo.ai 图像生成</b></td> <td style="text-align:center;"><b>Leonardo.ai 图像生成</b></td> </tr> <tr> <td> <img src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/12ffc93b-79f5-4cf0-a14d-f58cc050cc16" width="300px";height:"400px"> </td> <td> <img src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/ef923464-1033-45ba-a067-2a21afbae8fa" width="300px";height:"400px"> </td> <td> <img src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/cfb315c5-35f8-4a76-945d-eca0393825b0" width="300px";height:"400px"> </td> </tr> </table>

ElevenLabs

前往 Eleven Labs 输入你的文本,生成不同音高和说话者的优美音频。ElevenLabs也支持多语言

这里有一些资源:ElevenLabs YouTube视频

或者你可以使用API ElevenLabs API指南

ElevenLabs Python仓库

<table class="center"> <tr> <td style="text-align:center;"><b>Eleven Labs TTS</b></td> <td style="text-align:center;"><b>Eleven Labs TTS</b></td> <td style="text-align:center;"><b>Eleven Labs TTS</b></td> </tr> <tr> <td>

https://github.com/saba99/Talking_Face_Avatar/assets/33378412/bd68137d-2e67-41df-a1df-4162db170ff8

</td> <td>

https://github.com/saba99/Talking_Face_Avatar/assets/33378412/f622369b-9e69-492d-975b-685671c663c1

</td> <td>

https://github.com/saba99/Talking_Face_Avatar/assets/33378412/1f78eb67-cc76-4c9a-8664-a28f3f795bee

</td> </tr> </table>

🔥 亮点

-🔥 左右滚动查看所有视频

视频1 + 增强(GFPGAN )	视频2	视频3
<video src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/7879fcc4-fe3c-473a-86d8-23c736dd4a65.mp4" type="video/mp4"> </video>	<video src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/a7eb4df8-1789-412d-97da-8f6b361a72a2.mp4" type="video/mp4"> </video>	<video src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/b20102bd-852a-4091-87da-18dba720bc93.mp4" type="video/mp4"> </video>

视频4	视频5	视频6
<video src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/91be247e-b1e4-4206-aa95-4eca938597b2.mp4" type="video/mp4"> </video>	<video src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/18c7fc59-00f9-4118-b88b-545d3ea87342.mp4" type="video/mp4"> </video>	<video src="https://github.com/saba99/Talking_Face_Avatar/assets/33378412/f0bc6062-1a81-44f7-b6bc-747df6c06568.mp4" type="video/mp4"> </video>

🔥 新增多种模式,如静态模式、参考模式、调整大小模式,以实现更好的自定义应用。

我们的方法图

you_doodle_pro_2023-05-19t16_25_09z

Linux:

安装 anaconda、python 和 git。
创建环境并安装依赖。

git clone https://github.com/saba99/Talking_Face_Avatar.git

cd SadTalker 

conda create -n sadtalker python=3.8

conda activate sadtalker

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

conda install ffmpeg

pip install -r requirements.txt

### tts 是 gradio 演示的可选依赖。
### pip install TTS

UI + API:

查看 index.html 截图 (4899)

📥 2. 下载训练好的模型

您可以运行以下脚本将所有模型放置在正确的位置。

bash scripts/download_models.sh

最终文件夹结构如下所示：

模型说明：

模型	描述
checkpoints/auido2exp_00300-model.pth	Sadtalker中预训练的ExpNet。
checkpoints/auido2pose_00140-model.pth	Sadtalker中预训练的PoseVAE。
checkpoints/mapping_00229-model.pth.tar	Sadtalker中预训练的MappingNet。
checkpoints/mapping_00109-model.pth.tar	Sadtalker中预训练的MappingNet。
checkpoints/facevid2vid_00189-model.pth.tar	来自face-vid2vid复现的预训练face-vid2vid模型。
checkpoints/epoch_20.pth	Deep3DFaceReconstruction中预训练的3DMM提取器。
checkpoints/wav2lip.pth	Wav2lip中高精度的唇形同步模型。
checkpoints/shape_predictor_68_face_landmarks.dat	dilb中使用的人脸关键点模型。
checkpoints/BFM	3DMM库文件。
checkpoints/hub	face alignment中使用的人脸检测模型。
gfpgan/weights	`facexlib`和`gfpgan`中使用的人脸检测和增强模型。

</details>

🔮 3. 快速开始（最佳实践）

WebUI演示：

SDWebUI-Colab | Colab

## 您需要事先通过 `pip install tts` 手动安装TTS(https://github.com/coqui-ai/TTS)。
python app.py

手动使用：

使用默认配置为肖像图像添加动画：

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 or picture.png> \
                    --enhancer gfpgan

结果将保存在 results/$SOME_TIMESTAMP/*.mp4 中。

全身/图像生成：

使用 --still 生成自然的全身视频。您可以添加 enhancer 来提高生成视频的质量。

python inference.py --driven_audio <audio.wav> \
                    --source_image <video.mp4 or picture.png> \
                    --result_dir <存储结果的文件> \
                    --still \
                    --preprocess full \
                    --enhancer gfpgan