<a href='https://arxiv.org/abs/2211.14758'><img src='https://img.shields.io/badge/ArXiv-2211.14758-red'></a> <a href='https://vinthony.github.io/video-retalking/'><img src='https://img.shields.io/badge/项目-主页-Green'></a>
<BR> (1) 生成具有标准表情的人脸视频 <BR> (2) 基于音频的唇形同步 <BR> (3) 提高照片真实感的人脸增强
<BR> 给定一个说话人头视频,我们首先使用表情编辑网络根据相同的表情模板修改每一帧的表情,生成一个具有标准表情的视频。然后将这个视频与给定的音频一起输入到唇形同步网络中,生成唇形同步的视频。最后,我们通过一个身份感知的人脸增强网络和后处理来提高合成人脸的照片真实感。我们对所有三个步骤都采用基于学习的方法,所有模块都可以在一个连续的流程中处理,无需用户干预。</div> <BR>
<p> <img alt='流程' src="https://yellow-cdn.veclightyear.com/835a84d5/725348d4-5ed2-42a7-aa69-63ab13276ecb.png?raw=true" width="768px"><br> <em align='center'>流程图</em> </p> </div>https://user-images.githubusercontent.com/4397546/224310754-665eb2dd-aadc-47dc-b1f9-2029a937b20a.mp4
git clone https://github.com/vinthony/video-retalking.git
cd video-retalking
conda create -n video_retalking python=3.8
conda activate video_retalking
conda install ffmpeg
# 请按照以下链接的说明进行操作 https://pytorch.org/get-started/previous-versions/
# 此安装命令仅适用于CUDA 11.1
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html
pip install -r requirements.txt
请下载我们的预训练模型并将它们放在./checkpoints目录下。
python3 inference.py \
--face examples/face/1.mp4 \
--audio examples/audio/1.wav \
--outfile results/1_1.mp4
此脚本包含数据预处理步骤。您可以测试任何人脸视频而无需手动对齐。但值得注意的是,DNet无法处理极端姿势。
您还可以通过添加以下参数来控制表情:
--exp_img:预定义的表情模板。默认为"neutral"。您可以选择"smile"或一个图像路径。
--up_face:您可以选择"surprise"或"angry"来使用GANimation修改上半部分脸的表情。
如果您发现我们的工作对您的研究有用,请考虑引用:
@misc{cheng2022videoretalking,
title={VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild},
author={Kun Cheng and Xiaodong Cun and Yong Zhang and Menghan Xia and Fei Yin and Mingrui Zhu and Xuan Wang and Jue Wang and Nannan Wang},
year={2022},
eprint={2211.14758},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
感谢 Wav2Lip、 PIRenderer、 GFP-GAN、 GPEN、 ganimation_replicate、 STIT 分享他们的代码。
这不是腾讯的官方产品。
1. 在使用本代码之前,请仔细阅读并遵守适用于本代码的开源许可证。
2. 在使用本代码之前,请仔细阅读并遵守适用于本代码的知识产权声明。
3. 本开源代码完全离线运行,不会收集任何个人信息或其他数据。如果您使用本代码为最终用户提供服务并收集相关数据,请根据适用的法律法规采取必要的合规措施(如发布隐私政策、采取必要的数据安全策略等)。如果收集的数据涉及个人信息,必须获得用户同意(如适用)。由此产生的任何法律责任与腾讯无关。
4. 未经腾讯书面许可,您无权使用腾讯合法拥有的名称或标识,如"腾讯"。否则,您可能需要承担法律责任。
5. 本开源代码不具备直接向最终用户提供服务的能力。如果您需要使用本代码进行进一步的模型训练或演示,作为您产品的一部分向最终用户提供服务,或类似用途,请遵守适用于您的产品或服务的法律法规。由此产生的任何法律责任与腾讯无关。
6. 禁止使用本开源代码从事损害他人合法权益的活动(包括但不限于欺诈、欺骗、侵犯他人肖像权、名誉权等),或其他违反适用法律法规或违背社会公德和良好风俗的行为(包括提供不正确或虚假信息,传播色情、恐怖主义和暴力信息等)。否则,您可能需要承担法律责任。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业 ,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号