video-retalking

video-retalking

音频驱动的实时视频唇形同步编辑系统

VideoReTalking是一个创新系统,通过输入音频编辑真实世界说话人头视频的面部,生成高质量且唇形同步的输出视频。系统将任务分为三步:生成标准表情面部视频、实现音频驱动的唇形同步,以及增强面部真实感。整个过程采用基于机器学习的方法,无需人工干预即可自动完成。

VideoReTalking唇形同步人脸编辑视频处理AI技术Github开源项目
<div align="center"> <h2>VideoReTalking <br/> <span style="font-size:12px">基于音频的野外人头视频编辑唇形同步技术</span> </h2>

<a href='https://arxiv.org/abs/2211.14758'><img src='https://img.shields.io/badge/ArXiv-2211.14758-red'></a>      <a href='https://vinthony.github.io/video-retalking/'><img src='https://img.shields.io/badge/项目-主页-Green'></a>      在Colab中打开      Replicate

<div> <a target='_blank'>程琨 <sup>*,1,2</sup> </a>&emsp; <a href='https://vinthony.github.io/' target='_blank'>寸晓东 <sup>*,2</a>&emsp; <a href='https://yzhang2016.github.io/yongnorriszhang.github.io/' target='_blank'>张勇 <sup>2</sup></a>&emsp; <a href='https://menghanxia.github.io/' target='_blank'>夏梦涵 <sup>2</sup></a>&emsp; <a href='https://feiiyin.github.io/' target='_blank'>尹飞 <sup>2,3</sup></a>&emsp;<br/> <a href='https://web.xidian.edu.cn/mrzhu/en/index.html' target='_blank'>朱明瑞 <sup>1</sup></a>&emsp; <a href='https://xuanwangvc.github.io/' target='_blank'>王轩 <sup>2</sup></a>&emsp; <a href='https://juewang725.github.io/' target='_blank'>王珏 <sup>2</sup></a>&emsp; <a href='https://web.xidian.edu.cn/nnwang/en/index.html' target='_blank'>王楠楠 <sup>1</sup></a> </div> <br> <div> <sup>1</sup> 西安电子科技大学 &emsp; <sup>2</sup> 腾讯AI实验室 &emsp; <sup>3</sup> 清华大学 </div> <br> <i><strong><a href='https://sa2022.siggraph.org/' target='_blank'>SIGGRAPH Asia 2022 会议论文</a></strong></i> <br> <br> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6c1ceb88-c4b9-45da-be61-73e6cb2c5636.png" width="768px"> <div align="justify"> <BR> 我们提出了VideoReTalking,这是一个新系统,可以根据输入的音频编辑真实世界说话人头视频中的面部,即使表情不同,也能产生高质量且唇形同步的输出视频。我们的系统将这一目标分解为三个连续的任务:

<BR> (1) 生成具有标准表情的人脸视频 <BR> (2) 基于音频的唇形同步 <BR> (3) 提高照片真实感的人脸增强

<BR> 给定一个说话人头视频,我们首先使用表情编辑网络根据相同的表情模板修改每一帧的表情,生成一个具有标准表情的视频。然后将这个视频与给定的音频一起输入到唇形同步网络中,生成唇形同步的视频。最后,我们通过一个身份感知的人脸增强网络和后处理来提高合成人脸的照片真实感。我们对所有三个步骤都采用基于学习的方法,所有模块都可以在一个连续的流程中处理,无需用户干预。</div> <BR>

<p> <img alt='流程' src="https://yellow-cdn.veclightyear.com/835a84d5/725348d4-5ed2-42a7-aa69-63ab13276ecb.png?raw=true" width="768px"><br> <em align='center'>流程图</em> </p> </div>

野外效果展示(包含音频)

https://user-images.githubusercontent.com/4397546/224310754-665eb2dd-aadc-47dc-b1f9-2029a937b20a.mp4

环境配置

git clone https://github.com/vinthony/video-retalking.git
cd video-retalking
conda create -n video_retalking python=3.8
conda activate video_retalking

conda install ffmpeg

# 请按照以下链接的说明进行操作 https://pytorch.org/get-started/previous-versions/
# 此安装命令仅适用于CUDA 11.1
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

pip install -r requirements.txt

快速推理

预训练模型

请下载我们的预训练模型并将它们放在./checkpoints目录下。

<!-- 我们还提供了一些[示例视频和音频](https://drive.google.com/drive/folders/14OwbNGDCAMPPdY-l_xO1axpUjkPxI9Dv?usp=share_link)。请将它们放在 `./examples` 目录下。 -->

推理

python3 inference.py \
  --face examples/face/1.mp4 \
  --audio examples/audio/1.wav \
  --outfile results/1_1.mp4

此脚本包含数据预处理步骤。您可以测试任何人脸视频而无需手动对齐。但值得注意的是,DNet无法处理极端姿势。

您还可以通过添加以下参数来控制表情:

--exp_img:预定义的表情模板。默认为"neutral"。您可以选择"smile"或一个图像路径。

--up_face:您可以选择"surprise"或"angry"来使用GANimation修改上半部分脸的表情。

引用

如果您发现我们的工作对您的研究有用,请考虑引用:

@misc{cheng2022videoretalking,
        title={VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild}, 
        author={Kun Cheng and Xiaodong Cun and Yong Zhang and Menghan Xia and Fei Yin and Mingrui Zhu and Xuan Wang and Jue Wang and Nannan Wang},
        year={2022},
        eprint={2211.14758},
        archivePrefix={arXiv},
        primaryClass={cs.CV}
  }

致谢

感谢 Wav2LipPIRendererGFP-GANGPENganimation_replicateSTIT 分享他们的代码。

相关工作

免责声明

这不是腾讯的官方产品。

1. 在使用本代码之前,请仔细阅读并遵守适用于本代码的开源许可证。
2. 在使用本代码之前,请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行,不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据,请根据适用的法律法规采取必要的合规措施(如发布隐私政策、采取必要的数据安全策略等)。如果收集的数据涉及个人信息,必须获得用户同意(如适用)。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可,您无权使用腾讯合法拥有的名称或标识,如"腾讯"。否则,您可能需要承担法律责任。
5. 本开源代码不具备直接向最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示,作为您产品的一部分向最终用户提供服务,或类似用途,请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动(包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等),或其他违反适用法律法规或违背社会公德和良好风俗的行为(包括提供不正确或虚假信息,传播色情、恐怖主义和暴力信息等)。否则,您可能需要承担法律责任。

感谢所有贡献者

<a href="https://github.com/OpenTalker/video-retalking/graphs/contributors"> <img src="https://contrib.rocks/image?repo=OpenTalker/video-retalking" /> </a>

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多