video-retalking

video-retalking

音频驱动的实时视频唇形同步编辑系统

VideoReTalking是一个创新系统,通过输入音频编辑真实世界说话人头视频的面部,生成高质量且唇形同步的输出视频。系统将任务分为三步:生成标准表情面部视频、实现音频驱动的唇形同步,以及增强面部真实感。整个过程采用基于机器学习的方法,无需人工干预即可自动完成。

VideoReTalking唇形同步人脸编辑视频处理AI技术Github开源项目
<div align="center"> <h2>VideoReTalking <br/> <span style="font-size:12px">基于音频的野外人头视频编辑唇形同步技术</span> </h2>

<a href='https://arxiv.org/abs/2211.14758'><img src='https://img.shields.io/badge/ArXiv-2211.14758-red'></a>      <a href='https://vinthony.github.io/video-retalking/'><img src='https://img.shields.io/badge/项目-主页-Green'></a>      在Colab中打开      Replicate

<div> <a target='_blank'>程琨 <sup>*,1,2</sup> </a>&emsp; <a href='https://vinthony.github.io/' target='_blank'>寸晓东 <sup>*,2</a>&emsp; <a href='https://yzhang2016.github.io/yongnorriszhang.github.io/' target='_blank'>张勇 <sup>2</sup></a>&emsp; <a href='https://menghanxia.github.io/' target='_blank'>夏梦涵 <sup>2</sup></a>&emsp; <a href='https://feiiyin.github.io/' target='_blank'>尹飞 <sup>2,3</sup></a>&emsp;<br/> <a href='https://web.xidian.edu.cn/mrzhu/en/index.html' target='_blank'>朱明瑞 <sup>1</sup></a>&emsp; <a href='https://xuanwangvc.github.io/' target='_blank'>王轩 <sup>2</sup></a>&emsp; <a href='https://juewang725.github.io/' target='_blank'>王珏 <sup>2</sup></a>&emsp; <a href='https://web.xidian.edu.cn/nnwang/en/index.html' target='_blank'>王楠楠 <sup>1</sup></a> </div> <br> <div> <sup>1</sup> 西安电子科技大学 &emsp; <sup>2</sup> 腾讯AI实验室 &emsp; <sup>3</sup> 清华大学 </div> <br> <i><strong><a href='https://sa2022.siggraph.org/' target='_blank'>SIGGRAPH Asia 2022 会议论文</a></strong></i> <br> <br> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6c1ceb88-c4b9-45da-be61-73e6cb2c5636.png" width="768px"> <div align="justify"> <BR> 我们提出了VideoReTalking,这是一个新系统,可以根据输入的音频编辑真实世界说话人头视频中的面部,即使表情不同,也能产生高质量且唇形同步的输出视频。我们的系统将这一目标分解为三个连续的任务:

<BR> (1) 生成具有标准表情的人脸视频 <BR> (2) 基于音频的唇形同步 <BR> (3) 提高照片真实感的人脸增强

<BR> 给定一个说话人头视频,我们首先使用表情编辑网络根据相同的表情模板修改每一帧的表情,生成一个具有标准表情的视频。然后将这个视频与给定的音频一起输入到唇形同步网络中,生成唇形同步的视频。最后,我们通过一个身份感知的人脸增强网络和后处理来提高合成人脸的照片真实感。我们对所有三个步骤都采用基于学习的方法,所有模块都可以在一个连续的流程中处理,无需用户干预。</div> <BR>

<p> <img alt='流程' src="https://yellow-cdn.veclightyear.com/835a84d5/725348d4-5ed2-42a7-aa69-63ab13276ecb.png?raw=true" width="768px"><br> <em align='center'>流程图</em> </p> </div>

野外效果展示(包含音频)

https://user-images.githubusercontent.com/4397546/224310754-665eb2dd-aadc-47dc-b1f9-2029a937b20a.mp4

环境配置

git clone https://github.com/vinthony/video-retalking.git
cd video-retalking
conda create -n video_retalking python=3.8
conda activate video_retalking

conda install ffmpeg

# 请按照以下链接的说明进行操作 https://pytorch.org/get-started/previous-versions/
# 此安装命令仅适用于CUDA 11.1
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

pip install -r requirements.txt

快速推理

预训练模型

请下载我们的预训练模型并将它们放在./checkpoints目录下。

<!-- 我们还提供了一些[示例视频和音频](https://drive.google.com/drive/folders/14OwbNGDCAMPPdY-l_xO1axpUjkPxI9Dv?usp=share_link)。请将它们放在 `./examples` 目录下。 -->

推理

python3 inference.py \
  --face examples/face/1.mp4 \
  --audio examples/audio/1.wav \
  --outfile results/1_1.mp4

此脚本包含数据预处理步骤。您可以测试任何人脸视频而无需手动对齐。但值得注意的是,DNet无法处理极端姿势。

您还可以通过添加以下参数来控制表情:

--exp_img:预定义的表情模板。默认为"neutral"。您可以选择"smile"或一个图像路径。

--up_face:您可以选择"surprise"或"angry"来使用GANimation修改上半部分脸的表情。

引用

如果您发现我们的工作对您的研究有用,请考虑引用:

@misc{cheng2022videoretalking,
        title={VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild}, 
        author={Kun Cheng and Xiaodong Cun and Yong Zhang and Menghan Xia and Fei Yin and Mingrui Zhu and Xuan Wang and Jue Wang and Nannan Wang},
        year={2022},
        eprint={2211.14758},
        archivePrefix={arXiv},
        primaryClass={cs.CV}
  }

致谢

感谢 Wav2LipPIRendererGFP-GANGPENganimation_replicateSTIT 分享他们的代码。

相关工作

免责声明

这不是腾讯的官方产品。

1. 在使用本代码之前,请仔细阅读并遵守适用于本代码的开源许可证。
2. 在使用本代码之前,请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行,不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据,请根据适用的法律法规采取必要的合规措施(如发布隐私政策、采取必要的数据安全策略等)。如果收集的数据涉及个人信息,必须获得用户同意(如适用)。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可,您无权使用腾讯合法拥有的名称或标识,如"腾讯"。否则,您可能需要承担法律责任。
5. 本开源代码不具备直接向最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示,作为您产品的一部分向最终用户提供服务,或类似用途,请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动(包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等),或其他违反适用法律法规或违背社会公德和良好风俗的行为(包括提供不正确或虚假信息,传播色情、恐怖主义和暴力信息等)。否则,您可能需要承担法律责任。

感谢所有贡献者

<a href="https://github.com/OpenTalker/video-retalking/graphs/contributors"> <img src="https://contrib.rocks/image?repo=OpenTalker/video-retalking" /> </a>

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多