video-retalking

video-retalking

音频驱动的实时视频唇形同步编辑系统

VideoReTalking是一个创新系统,通过输入音频编辑真实世界说话人头视频的面部,生成高质量且唇形同步的输出视频。系统将任务分为三步:生成标准表情面部视频、实现音频驱动的唇形同步,以及增强面部真实感。整个过程采用基于机器学习的方法,无需人工干预即可自动完成。

VideoReTalking唇形同步人脸编辑视频处理AI技术Github开源项目
<div align="center"> <h2>VideoReTalking <br/> <span style="font-size:12px">基于音频的野外人头视频编辑唇形同步技术</span> </h2>

<a href='https://arxiv.org/abs/2211.14758'><img src='https://img.shields.io/badge/ArXiv-2211.14758-red'></a>      <a href='https://vinthony.github.io/video-retalking/'><img src='https://img.shields.io/badge/项目-主页-Green'></a>      在Colab中打开      Replicate

<div> <a target='_blank'>程琨 <sup>*,1,2</sup> </a>&emsp; <a href='https://vinthony.github.io/' target='_blank'>寸晓东 <sup>*,2</a>&emsp; <a href='https://yzhang2016.github.io/yongnorriszhang.github.io/' target='_blank'>张勇 <sup>2</sup></a>&emsp; <a href='https://menghanxia.github.io/' target='_blank'>夏梦涵 <sup>2</sup></a>&emsp; <a href='https://feiiyin.github.io/' target='_blank'>尹飞 <sup>2,3</sup></a>&emsp;<br/> <a href='https://web.xidian.edu.cn/mrzhu/en/index.html' target='_blank'>朱明瑞 <sup>1</sup></a>&emsp; <a href='https://xuanwangvc.github.io/' target='_blank'>王轩 <sup>2</sup></a>&emsp; <a href='https://juewang725.github.io/' target='_blank'>王珏 <sup>2</sup></a>&emsp; <a href='https://web.xidian.edu.cn/nnwang/en/index.html' target='_blank'>王楠楠 <sup>1</sup></a> </div> <br> <div> <sup>1</sup> 西安电子科技大学 &emsp; <sup>2</sup> 腾讯AI实验室 &emsp; <sup>3</sup> 清华大学 </div> <br> <i><strong><a href='https://sa2022.siggraph.org/' target='_blank'>SIGGRAPH Asia 2022 会议论文</a></strong></i> <br> <br> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6c1ceb88-c4b9-45da-be61-73e6cb2c5636.png" width="768px"> <div align="justify"> <BR> 我们提出了VideoReTalking,这是一个新系统,可以根据输入的音频编辑真实世界说话人头视频中的面部,即使表情不同,也能产生高质量且唇形同步的输出视频。我们的系统将这一目标分解为三个连续的任务:

<BR> (1) 生成具有标准表情的人脸视频 <BR> (2) 基于音频的唇形同步 <BR> (3) 提高照片真实感的人脸增强

<BR> 给定一个说话人头视频,我们首先使用表情编辑网络根据相同的表情模板修改每一帧的表情,生成一个具有标准表情的视频。然后将这个视频与给定的音频一起输入到唇形同步网络中,生成唇形同步的视频。最后,我们通过一个身份感知的人脸增强网络和后处理来提高合成人脸的照片真实感。我们对所有三个步骤都采用基于学习的方法,所有模块都可以在一个连续的流程中处理,无需用户干预。</div> <BR>

<p> <img alt='流程' src="https://yellow-cdn.veclightyear.com/835a84d5/725348d4-5ed2-42a7-aa69-63ab13276ecb.png?raw=true" width="768px"><br> <em align='center'>流程图</em> </p> </div>

野外效果展示(包含音频)

https://user-images.githubusercontent.com/4397546/224310754-665eb2dd-aadc-47dc-b1f9-2029a937b20a.mp4

环境配置

git clone https://github.com/vinthony/video-retalking.git
cd video-retalking
conda create -n video_retalking python=3.8
conda activate video_retalking

conda install ffmpeg

# 请按照以下链接的说明进行操作 https://pytorch.org/get-started/previous-versions/
# 此安装命令仅适用于CUDA 11.1
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html

pip install -r requirements.txt

快速推理

预训练模型

请下载我们的预训练模型并将它们放在./checkpoints目录下。

<!-- 我们还提供了一些[示例视频和音频](https://drive.google.com/drive/folders/14OwbNGDCAMPPdY-l_xO1axpUjkPxI9Dv?usp=share_link)。请将它们放在 `./examples` 目录下。 -->

推理

python3 inference.py \
  --face examples/face/1.mp4 \
  --audio examples/audio/1.wav \
  --outfile results/1_1.mp4

此脚本包含数据预处理步骤。您可以测试任何人脸视频而无需手动对齐。但值得注意的是,DNet无法处理极端姿势。

您还可以通过添加以下参数来控制表情:

--exp_img:预定义的表情模板。默认为"neutral"。您可以选择"smile"或一个图像路径。

--up_face:您可以选择"surprise"或"angry"来使用GANimation修改上半部分脸的表情。

引用

如果您发现我们的工作对您的研究有用,请考虑引用:

@misc{cheng2022videoretalking,
        title={VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild}, 
        author={Kun Cheng and Xiaodong Cun and Yong Zhang and Menghan Xia and Fei Yin and Mingrui Zhu and Xuan Wang and Jue Wang and Nannan Wang},
        year={2022},
        eprint={2211.14758},
        archivePrefix={arXiv},
        primaryClass={cs.CV}
  }

致谢

感谢 Wav2LipPIRendererGFP-GANGPENganimation_replicateSTIT 分享他们的代码。

相关工作

免责声明

这不是腾讯的官方产品。

1. 在使用本代码之前,请仔细阅读并遵守适用于本代码的开源许可证。
2. 在使用本代码之前,请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行,不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据,请根据适用的法律法规采取必要的合规措施(如发布隐私政策、采取必要的数据安全策略等)。如果收集的数据涉及个人信息,必须获得用户同意(如适用)。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可,您无权使用腾讯合法拥有的名称或标识,如"腾讯"。否则,您可能需要承担法律责任。
5. 本开源代码不具备直接向最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示,作为您产品的一部分向最终用户提供服务,或类似用途,请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动(包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等),或其他违反适用法律法规或违背社会公德和良好风俗的行为(包括提供不正确或虚假信息,传播色情、恐怖主义和暴力信息等)。否则,您可能需要承担法律责任。

感谢所有贡献者

<a href="https://github.com/OpenTalker/video-retalking/graphs/contributors"> <img src="https://contrib.rocks/image?repo=OpenTalker/video-retalking" /> </a>

编辑推荐精选

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

下拉加载更多