LAMP

LAMP

少量样本视频生成的创新技术

LAMP是一种基于少量样本的视频生成技术,仅需8-16个视频和1个GPU即可训练。该方法可学习特定运动模式,用于文本到视频生成和视频编辑,能创造奔马、烟花等多种动态效果。LAMP为资源受限情况下的视频生成提供了新的解决方案,在视频生成领域具有重要意义。

LAMP视频生成少样本学习动作模式CVPR 2024Github开源项目
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/a3b9a03b-7e1f-41fa-87d7-a02e4cae78d7.png" height=170> </p>

<p align="center"> [CVPR 2024] | LAMP: 学习运动模式的少样本视频生成 </p>

Python 3.8 pytorch 1.12.0

本仓库是LAMP的官方实现

LAMP: 学习运动模式的少样本视频生成<br> 吴瑞琦, 陈良宇, 杨桐, 郭春乐, 李崇义, 张祥雨 <br>( * 表示通讯作者)

[Arxiv 论文]  [项目网页]  [Google Drive]  [百度网盘 (密码: ffsp)]  [Colab 笔记本方法 

:rocket: LAMP 是一种基于少样本的文本到视频生成方法。您只需要**8~16个视频和1个GPU(显存 > 15 GB)**进行训练!然后您就可以用学习到的运动模式生成视频。

新闻

  • [2024/02/27] 我们的论文被CVPR2024接收!
  • [2023/11/15] 发布了将LAMP应用于视频编辑的代码!
  • [2023/11/02] Colab演示已发布!感谢@ShashwatNigam99的PR。
  • [2023/10/21] 我们添加了Google Drive链接,提供我们的检查点和训练数据。
  • [2023/10/17] 我们发布了我们的检查点和Arxiv论文
  • [2023/10/16] 我们的代码已公开可用。

准备工作

依赖项和安装

  • Ubuntu > 18.04
  • CUDA=11.3
  • 其他:
# 克隆仓库 git clone https://github.com/RQ-Wu/LAMP.git cd LAMP # 创建虚拟环境 conda create -n LAMP python=3.8 conda activate LAMP # 安装包 pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113 pip install -r requirements.txt pip install xformers==0.0.13

权重和数据

  1. 您可以在Hugging Face上下载预训练的T2I扩散模型。 在我们的工作中,我们使用Stable Diffusion v1.4作为我们的骨干网络。使用git-lfs克隆预训练权重并将它们放在./checkpoints

  2. 我们的检查点和训练数据列表如下。您也可以自行收集视频数据(推荐网站:pexels, frozen-in-time),并将.mp4文件放在./training_videos/[motion_name]/

  3. [更新] 您可以在 assets/run.mp4 中找到视频编辑演示的培训视频

<table class="center"> <tr> <td align="center"> 动作名称 </td> <td align="center"> 检查点链接 </td> <td align="center"> 训练数据 </td> </tr> <tr> <td align="center">鸟飞</td> <td align="center"><a href="https://pan.baidu.com/s/1nuZVRj-xRqkHySQQ3jCFkw">百度网盘 (密码: jj0o)</a></td> <td align="center"><a href="https://pan.baidu.com/s/10fi8KoBrGJMpLQKhUIaFSQ">百度网盘 (密码: w96b)</a></td> </tr> <tr> <td align="center">烟花</td> <td align="center"><a href="https://pan.baidu.com/s/1zJnn5bZpGzChRHJdO9x6WA">百度网盘 (密码: wj1p)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1uIyw0Q70svWNM5z7DFYkiQ">百度网盘 (密码: oamp)</a></td> </tr> <tr> <td align="center">直升机</td> <td align="center"><a href="https://pan.baidu.com/s/1oj6t_VFo9cX0vTZWDq8q3w">百度网盘 (密码: egpe)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1MYMjIFyFTiLGEX1w0ees2Q">百度网盘 (密码: t4ba)</a></td> </tr> <tr> <td align="center">马奔跑</td> <td align="center"><a href="https://pan.baidu.com/s/1lkAFZuEnot4JGruLe6pR3g">百度网盘 (密码: 19ld)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1z7FHN-aotdOF2MPUk4lDJg">百度网盘 (密码: mte7)</a></td> </tr> <tr> <td align="center">弹吉他</td> <td align="center"><a href="https://pan.baidu.com/s/1uY47E08_cUofmlmKWfi46A">百度网盘 (密码: l4dw)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1cemrtzJtS_Lm8y8nZM9kSw">百度网盘 (密码: js26)</a></td> </tr> <tr> <td align="center">下雨</td> <td align="center"><a href="https://pan.baidu.com/s/1Cvsyg7Ld2O0DEK_U__2aXg">百度网盘 (密码: jomu)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1hMGrHCLNRDLJQ-4XKk6hZg">百度网盘 (密码: 31ug)</a></td> </tr> <tr> <td align="center">转向微笑</td> <td align="center"><a href="https://pan.baidu.com/s/1UYjWncrxYiAhwpNAafH5WA">百度网盘 (密码: 2bkl)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1ErFSm6t-CtYBzsuzxi08dg">百度网盘 (密码: l984)</a></td> </tr> <tr> <td align="center">瀑布</td> <td align="center"><a href="https://pan.baidu.com/s/1tWArxOw6CMceaW_49rIoSA">百度网盘 (密码: vpkk)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1hjlqRwa35nZ2pc2D-gIX9A">百度网盘 (密码: 2edp)</a></td> </tr> <tr> <td align="center">全部</td> <td align="center"><a href="https://pan.baidu.com/s/1vRG7kMCTC7b9YUd4qsSP_A">百度网盘 (密码: ifsm)</a></td> <td align="center"><a href="https://pan.baidu.com/s/1h5HrIGWP5OlMqp9gkD9cyQ">百度网盘 (密码: 2i2k)</a></td> </tr> </table>

开始使用

1. 训练

# 学习动作模式的训练代码 CUDA_VISIBLE_DEVICES=X accelerate launch train_lamp.py config="configs/horse-run.yaml" # 视频编辑的训练代码(训练视频可在 assets/run.mp4 中找到) CUDA_VISIBLE_DEVICES=X accelerate launch train_lamp.py config="configs/run.yaml"

2. 推理

以下是推理的示例命令

# 动作模式 python inference_script.py --weight ./my_weight/turn_to_smile/unet --pretrain_weight ./checkpoints/stable-diffusion-v1-4 --first_frame_path ./benchmark/turn_to_smile/head_photo_of_a_cute_girl,_comic_style.png --prompt "head photo of a cute girl, comic style, turns to smile" # 视频编辑 python inference_script.py --weight ./outputs/run/unet --pretrain_weight ./checkpoints/stable-diffusion-v1-4 --first_frame_path ./bemchmark/editing/a_girl_runs_beside_a_river,_Van_Gogh_style.png --length 24 --editing ######################################################################################################### # --weight: 我们模型的路径 # --pretrain_weight: 预训练模型的路径(例如 SDv1.4) # --first_frame_path: 由 T2I 模型生成的第一帧的路径(例如 SD-XL) # --prompt: 输入提示,默认值与第一帧的文件名对齐 # --output: 输出路径,默认: ./results # --height: 视频高度,默认: 320 # --width: 视频宽度,默认: 512 # --length 视频长度,默认: 16 # --cfg: 无分类器引导,默认: 12.5 #########################################################################################################

视觉示例

少样本文本到视频生成

<table class="center"> <tr> <td align="center" style="width: 7%">马奔跑</td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/7b49ea89-deec-4018-95ad-58b462a72651.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/80932ba0-195c-4c9d-a05c-07dba575755e.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0da3004c-9b2e-4c7e-b644-ffe798c257cd.gif"> </td> </tr> <tr class="prompt-row"> <td align="center" style="width: 7%"> </td> <td align="center">一匹马在宇宙中奔跑。</td> <td align="center">一匹马在火星上奔跑。</td> <td align="center">一匹马在路上奔跑。</td> </tr> <tr> <td align="center" style="width: 7%">烟花</td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/8fc67b75-2e50-4184-b4ed-5bdb59b6757d.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ab955dd6-19f0-49cf-ba6a-ba594664edf8.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/97907aa8-25a4-4460-8799-551e80c670eb.gif"> </td> </tr> <tr class="prompt-row"> <td align="center" style="width: 7%"> </td> <td align="center">沙漠夜空中的烟花。</td> <td align="center">山峦上空的烟花。</td> <td align="center">夜晚城市中的烟花。</td> </tr> <tr> <td align="center" style="width: 7%">弹吉他</td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ee0e862d-aa9d-4287-a6b9-d67715382dfe.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/d6e3d100-7b02-4fae-b245-55d0e088d3be.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/7e87dc4c-6b19-4ab0-a2f2-56ddfcbbe086.gif"> </td> </tr> <tr class="prompt-row"> <td align="center" style="width: 7%"> </td> <td align="center">GTA5海报,一个男人弹吉他。</td> <td align="center">一个女人弹吉他。</td> <td align="center">一个宇航员弹吉他,逼真风格。</td> </tr> <tr> <td align="center" style="width: 7%">鸟飞翔</td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c51e5fe1-4fc7-4362-9697-99dea1e159d0.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/509e2f84-a4b2-45f3-8f12-e6cf9650094c.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c84e1373-0318-456c-b315-ca546801fbb7.gif"> </td> </tr> <tr class="prompt-row"> <td align="center" style="width: 7%"></td> <td align="center">鸟儿在粉色天空中飞翔。</td> <td align="center">鸟儿在天空中飞翔,海面上空。</td> <td align="center">许多鸟儿在广场上空飞翔。</td> </tr> <table> ### 视频编辑 <table style="width: 100%;"> <tbody> <tr class="prompt-row"> <td align="center">原始视频</td> <td align="center">编辑结果-1</td> <td align="center">编辑结果-2</td> </tr> <tr class="result-row"> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/e09c5db4-c847-4b21-bdf4-92cdc0a36d0e.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/eef954e3-bda6-4114-abaa-8cc740e9c5fb.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b7551f45-eafd-4925-9c88-d42064378d30.gif"> </td> </tr> <tr class="prompt-row"> <td align="center"></td> <td align="center">一个穿黑衣的女孩在路上跑步。</td> <td align="center">一个男人在路上跑步。</td> </tr> <tr class="result-row"> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b8841c00-b6a4-43d4-aabc-f0adb89bf479.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c919226f-a035-43bc-af03-c506a7ef0ea1.gif"> </td> <td align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/011e47ce-d192-418f-a7e5-31a97792b9eb.gif"> </td> </tr> <tr class="prompt-row"> <td align="center"></td> <td align="center">一个男人在跳舞。</td> <td align="center">一个穿白衣的女孩在跳舞。</td> </tr> </tbody> </table>

引用

如果您发现我们的仓库对您的研究有用,请引用我们:

@inproceedings{wu2024lamp,
      title={LAMP: Learn A Motion Pattern for Few-Shot Video Generation},
      author={Wu, Ruiqi and Chen, Liangyu and Yang, Tong and Guo, Chunle and Li, Chongyi and Zhang, Xiangyu},
      booktitle={IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
      year={2024}

许可证

根据知识共享署名-非商业性使用 4.0 国际许可协议获得许可,仅供非商业用途使用。 任何商业用途都应首先获得正式许可。

致谢

本仓库由吴瑞琪维护。 代码基于Tune-A-Video构建。感谢这个优秀的开源代码!

编辑推荐精选

问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
��材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

下拉加载更多