Generative-AI

Generative-AI

多模态图像合成与编辑技术及其分类

该项目附有一篇综述论文,全面分析了多模态图像合成与编辑(MISE)和视觉AIGC的发展情况,并根据数据模态和模型架构进行了分类研究。通过此项研究,科研人员和技术开发者可以深入了解神经渲染、扩散方法、自回归方法及对抗生成网络(GAN)等不同技术及其应用,帮助更好地掌握多模态图像合成技术的前沿进展与实际应用。

Multimodal Image Synthesis and EditingGenerative AIVisual AIGCTaxonomyData ModalityGithub开源项目
<!-- !# <p align=center> 多模态图像合成与编辑:<br>综述和分类法</p> --> <img src='https://yellow-cdn.veclightyear.com/35dd4d3f/050805f0-6df5-4611-97f8-b42bd1d8b18d.png' align="center"> <br>

arXiv Survey Maintenance PR's Welcome GitHub license

<!-- [![made-with-Markdown](https://yellow-cdn.veclightyear.com/35dd4d3f/b2e17f59-300e-4333-a6db-ef787c4a9e0b.svg)](http://commonmark.org) --> <!-- [![Documentation Status](https://yellow-cdn.veclightyear.com/35dd4d3f/0ce60551-450a-4325-bbd7-6c04fd3857f3.png)](http://ansicolortags.readthedocs.io/?badge=latest) --> <img src='https://yellow-cdn.veclightyear.com/35dd4d3f/00e84c82-3061-4d87-9638-0f1bc5388b9a.gif' align="center">

这个项目与我们的综述论文相关,通过根据数据模态和模型架构制定分类法,全面地为多模态图像合成与编辑(MISE)以及视觉AIGC的进展提供背景。

<img src='https://yellow-cdn.veclightyear.com/35dd4d3f/1ece2ed7-ea19-431c-9aa7-5f59a076093e.png' align="center" width=20> 多模态图像合成与编辑:生成式AI时代 [论文] [项目] <br> Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu, Lingjie Liu, Adam Kortylewsk, <br> Christian Theobalt, Eric Xing <br> IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

<!---[DeepAI](https://deepai.org/publication/multimodal-image-synthesis-and-editing-a-survey).**--> <br>

PR's Welcome 欢迎通过拉取请求推广论文。<br> 提交拉取请求的步骤:

  • a. 将项目分叉到你自己的仓库中。
  • b. 在README.md中按以下格式添加标题、作者、会议、论文链接、项目链接和代码链接:
**标题**<br>
*作者*<br>
会议
[[论文](论文链接)]
[[代码](项目链接)]
[[项目](代码链接)]
  • c. 将拉取请求提交到这个分支。
<br>

相关综述和项目

对抗文本到图像合成:综述<br> Stanislav Frolov, Tobias Hinz, Federico Raue, Jörn Hees, Andreas Dengel<br> Neural Networks 2021 [论文]

GAN 反演:综述<br> Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, Ming-Hsuan Yang<br> TPAMI 2022 [论文] [项目]

从直观用户输入到深度图像合成:综述和展望<br> Yuan Xue, Yuan-Chen Guo, Han Zhang, Tao Xu, Song-Hai Zhang, Xiaolei Huang<br> Computational Visual Media 2022 [论文]

Awesome-Text-to-Image

<br>

目录 (正在进行中)

方法:

<!-- ### 方法: -->

模态与数据集:

神经渲染方法

ATT3D: Amortized Text-to-3D Object Synthesis<br> Jonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu, Sanja Fidler, James Lucas<br> arxiv 2023 [论文]

TADA! Text to Animatable Digital Avatars<br> Tingting Liao, Hongwei Yi, Yuliang Xiu, Jiaxaing Tang, Yangyi Huang, Justus Thies, Michael J. Black<br> arxiv 2023 [论文]

MATLABER: Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR<br> Xudong Xu, Zhaoyang Lyu, Xingang Pan, Bo Dai<br> arxiv 2023 [论文]

IT3D: Improved Text-to-3D Generation with Explicit View Synthesis<br> Yiwen Chen, Chi Zhang, Xiaofeng Yang, Zhongang Cai, Gang Yu, Lei Yang, Guosheng Lin<br> arxiv 2023 [论文]

AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose<br> Huichao Zhang, Bowen Chen, Hao Yang, Liao Qu, Xu Wang, Li Chen, Chao Long, Feida Zhu, Kang Du, Min Zheng<br> arxiv 2023 [论文] [项目]

Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions<br> Ayaan Haque, Matthew Tancik, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa<br> ICCV 2023 [论文] [项目] [代码]

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields<br> Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo<br> ICCV 2023 [论文]

Local 3D Editing via 3D Distillation of CLIP Knowledge<br> Junha Hyung, Sungwon Hwang, Daejin Kim, Hyunji Lee, Jaegul Choo<br> CVPR 2023 [论文]

RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models<br> Xingchen Zhou, Ying He, F. Richard Yu, Jianqiang Li, You Li<br> IJCAI 2023 [论文]

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation<br> Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang<br> arxiv 2023 [论文] [项目]

AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars<br> Mohit Mendiratta, Xingang Pan, Mohamed Elgharib, Kartik Teotia, Mallikarjun B R, Ayush Tewari, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt<br> arxiv 2023 [论文] [项目]

Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields<br> Ori Gordon, Omri Avrahami, Dani Lischinski<br> arxiv 2023 [论文] [项目]

OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields<br> Youtan Yin, Zhoujie Fu, Fan Yang, Guosheng Lin<br> arxiv 2023 [论文] [项目] [代码] HiFA: 高保真文本到3D高级扩散指导<br> Junzhe Zhu, Peiye Zhuang<br> arxiv 2023 [论文] [项目]

ProlificDreamer: 通过变分分数蒸馏进行高保真和多样化的文本到3D生成<br> Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu<br> arxiv 2023 [论文] [项目]

Text2NeRF: 使用神经辐射场的文本驱动的3D场景生成<br> Jingbo Zhang, Xiaoyu Li, Ziyu Wan, Can Wang, Jing Liao<br> arxiv 2023 [论文] [项目]

DreamAvatar: 通过扩散模型进行文本和形状引导的3D人体化身生成<br> Yukang Cao, Yan-Pei Cao, Kai Han, Ying Shan, Kwan-Yee K. Wong<br> arxiv 2023 [论文] [项目]

DITTO-NeRF: 基于扩散的迭代文本到全方位3D模型<br> Hoigi Seo, Hayeon Kim, Gwanghyun Kim, Se Young Chun<br> arxiv 2023 [论文] [项目] [代码]

CompoNeRF: 具有可编辑3D场景布局的文本引导多物体组合NeRF<br> Yiqi Lin, Haotian Bai, Sijia Li, Haonan Lu, Xiaodong Lin, Hui Xiong, Lin Wang<br> arxiv 2023 [论文]

Set-the-Scene: 生成可控NeRF场景的全局-局部训练<br> Dana Cohen-Bar, Elad Richardson, Gal Metzer, Raja Giryes, Daniel Cohen-Or<br> arxiv 2023 [论文] [项目] [代码]

让2D扩散模型了解3D一致性以进行稳健的文本到3D生成<br> Junyoung Seo, Wooseok Jang, Min-Seop Kwak, Jaehoon Ko, Hyeonsu Kim, Junho Kim, Jin-Hwa Kim, Jiyoung Lee, Seungryong Kim<br> arxiv 2023 [论文] [项目] [代码]

文本到4D动态场景生成<br> Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman<br> arxiv 2023 [论文] [项目]

Magic3D: 高分辨率文本到3D内容创作<br> Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin<br> CVPR 2023 [论文] [项目]

DATID-3D: 使用文本到图像扩散的3D生成模型的多样性保留域适配<br> Gwanghyun Kim, Se Young Chun<br> CVPR 2023 [论文] [代码] [项目]

使用文本引导的扩散模型进行逼真3D对象生成和编辑<br> Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng, Dacheng Tao<br> arxiv 2022 [论文] [项目]

DreamFusion: 使用2D扩散进行文本到3D<br> Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall<br> arxiv 2022 [论文] [项目]

使用Dream Fields进行零样本文本引导的对象生成<br> Ajay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben Poole<br> CVPR 2022 [论文] [代码] [项目]

IDE-3D: 高分辨率3D感知人像合成的交互式解耦编辑<br> Jingxiang Sun, Xuan Wang, Yichun Shi, Lizhen Wang, Jue Wang, Yebin Liu<br> SIGGRAPH Asia 2022 [论文] [代码] [项目]

Sem2NeRF: 将单视图语义掩码转换为神经辐射场<br> Yuedong Chen, Qianyi Wu, Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai<br> arxiv 2022 [论文] [代码] [项目]

CLIP-NeRF: 文本和图像驱动的神经辐射场操作<br> Can Wang, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao<br> CVPR 2022 [论文] [代码] [项目]

CG-NeRF: 条件生成神经辐射场<br> Kyungmin Jo, Gyumin Shim, Sanghun Jung, Soyoung Yang, Jaegul Choo<br> arxiv 2021 [论文]

使用Dream Fields进行零样本文本引导的对象生成<br> Ajay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben Poole<br> arxiv 2021 [论文] [项目]

AD-NeRF: 用于谈话头合成的音频驱动神经辐射场<br> Yudong Guo, Keyu Chen, Sen Liang, Yong-Jin Liu, Hujun Bao, Juyong Zhang<br> ICCV 2021 [论文] [代码] [项目] [视频]

<br>

基于扩散的方法

BLIP-Diffusion: 用于可控文本到图像生成和编辑的预训练主题表示<br> Dongxu Li, Junnan Li, Steven C.H. Hoi<br> Arxiv 2023 [论文] [项目] [代码]

InstructEdit: 使用用户指令改进扩散基础的图像编辑自动掩码<br> Qian Wang, Biao Zhang, Michael Birsak, Peter Wonka<br> Arxiv 2023 [论文] [项目] [代码]

DreamBooth: 细化文本到图像扩散模型以进行主题驱动的生成<br> Nataniel Ruiz, Yuanzhen Li, Varun Jampani Yael, Pritch Michael, Rubinstein Kfir Aberman<br> CVPR 2023 [论文] [项目] [代码]

文本到图像扩散的多概念定制<br> Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu<br> CVPR 2023 [论文] [项目] [代码]

用于多模态面部生成和编辑的协作扩散<br> Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu<br> CVPR 2023 [论文] [项目] [代码]

文本驱动图像到图像翻译的即插即用扩散特征<br> Narek Tumanyan, Michal Geyer, Shai Bagon, Tali Dekel<br> CVPR 2023 [论文] [项目] [代码] SINE: 文本到图像扩散模型的单图像编辑<br> Zhixing Zhang, Ligong Han, Arnab Ghosh, Dimitris Metaxas, Jian Ren<br> CVPR 2023 [论文] [项目] [代码]

用于编辑真实图像的 NULL-Text 反演技术:基于引导扩散模型<br> Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or<br> CVPR 2023 [论文] [项目] [代码]

示例绘画:基于示例的图像编辑与扩散模型<br> Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen, Fang Wen<br> CVPR 2023 [论文] [演示] [代码]

SpaText:用于可控图像生成的空间-文本表示<br> Omri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, Xi Yin<br> CVPR 2023 [论文] [项目]

对齐你的潜变量:使用潜模扩散模型进行高分辨率视频合成<br> Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis<br> CVPR 2023 [论文] [项目]

InstructPix2Pix 学习遵循图像编辑指令<br> Tim Brooks, Aleksander Holynski, Alexei A. Efros<br> CVPR 2023 [论文] [项目] [代码]

联合征服:即插即用多模式合成使用扩散模型<br> Nithin Gopalakrishnan Nair, Chaminda Bandara, Vishal M Patel<br> CVPR 2023 [论文] [项目] [代码]

DiffEdit:基于扩散的语义图像编辑与遮罩引导<br> Guillaume Couairon, Jakob Verbeek, Holger Schwenk, Matthieu Cord<br> CVPR 2023 [论文]

eDiff-I:带有专家去噪集合的文本到图像扩散模型<br> Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu<br> Arxiv 2022 [论文] [项目]

Prompt-to-Prompt 通过交叉注意力控制进行图像编辑<br> Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman1 Yael Pritch, Daniel Cohen-Or<br> Arxiv 2022 [论文] [项目] [代码]

一图值千言:使用文本反演个性化文本到图像生成<br> Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or<br> Arxiv 2022 [论文] [项目] [代码]

Text2Human:文本驱动的可控人类图像生成<br> Yuming Jiang, Shuai Yang, Haonan Qiu, Wayne Wu, Chen Change Loy, Ziwei Liu<br> SIGGRAPH 2022 [论文] [项目] [代码]

[DALL-E 2] 使用 CLIP 潜变量的分层文本条件图像生成<br> Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen<br> [论文] [代码]

使用潜模扩散模型进行高分辨率图像合成<br> Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer<br> CVPR 2022 [论文] [代码]

v 目标扩散<br> Katherine Crowson<br> [代码]

GLIDE:走向由文本引导的逼真图像生成和编辑<br> Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen<br> arxiv 2021 [论文] [代码]

用于文本到图像合成的矢量量化扩散模型<br> Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo<br> arxiv 2021 [论文] [代码]

DiffusionCLIP:用于鲁棒图像操纵的文本引导扩散模型<br> Gwanghyun Kim, Jong Chul Ye<br> arxiv 2021 [论文]

混合扩散:文本驱动的自然图像编辑<br> Omri Avrahami, Dani Lischinski, Ohad Fried<br> CVPR 2022 [论文] [项目] [代码]

<br>

自回归方法

MaskGIT: 遮蔽生成图像Transformer<br> Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T. Freeman<br> arxiv 2022 [论文]

<!-- [[Project](https://wenxin.baidu.com/wenxin/ernie-vilg)] -->

ERNIE-ViLG:用于双向视觉-语言生成的统一生成预训练<br> Han Zhang, Weichong Yin, Yewei Fang, Lanxin Li, Boqiang Duan, Zhihua Wu, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang<br> arxiv 2021 [论文] [项目]

NÜWA:视觉合成预训练用于神经视觉世界的创建<br> Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan<br> arxiv 2021 [论文] [代码] [视频]

L-Verse:图像与文本之间的双向生成<br> Taehoon Kim, Gwangmo Song, Sihaeng Lee, Sangyun Kim, Yewon Seo, Soonyoung Lee, Seung Hwan Kim, Honglak Lee, Kyunghoon Bae<br> arxiv 2021 [论文] [代码]

<!-- [[视频](https://youtu.be/C9CTnZJ9ZE0)] -->

M6-UFC:统一多模式控制用于条件图像生成<br> Zhu Zhang, Jianxin Ma, Chang Zhou, Rui Men, Zhikang Li, Ming Ding, Jie Tang, Jingren Zhou, Hongxia Yang<br> NeurIPS 2021 [论文]

<!-- [[Project](https://compvis.github.io/imagebart/)] -->

ImageBART:带有多项式扩散的双向上下文自回归图像生成<br> Patrick Esser, Robin Rombach, Andreas Blattmann, Björn Ommer<br> NeurIPS 2021 [论文] [代码] [项目]

一图胜千言:用于多样化标题和丰富图像生成的统一系统<br> Yupan Huang, Bei Liu, Jianlong Fu, Yutong Lu<br> ACM MM 2021 [论文] [代码] 统一多模态变压器用于双向图像和文本生成<br> 黄宇攀, 薛宏伟, 刘贝, 陆雨桐<br> ACM MM 2021 [论文] [代码]

驯服变压器用于高分辨率图像合成<br> Patrick Esser, Robin Rombach, Björn Ommer<br> CVPR 2021 [论文] [代码] [项目]

RuDOLPH: 一个超模态变压器可以和DALL-E一样有创意,并且和CLIP一样聪明<br> Alex Shonenkov, Michael Konstantinov<br> arxiv 2022 [代码]

从俄语文本生成图像 (ruDALL-E)<br> [代码] [项目]

零样本文本到图像生成<br> Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever<br> arxiv 2021 [论文] [代码] [项目]

场景生成的组合变压器<br> Drew A. Hudson, C. Lawrence Zitnick<br> NeurIPS 2021 [论文] [代码]

X-LXMERT:使用多模态变压器进行绘画、描述和回答问题<br> Jaemin Cho, Jiasen Lu, Dustin Schwenk, Hannaneh Hajishirzi, Aniruddha Kembhavi<br> EMNLP 2020 [论文] [代码]

从单个说话者的音频-视觉相关学习生成一张说话脸<br> Suzhen Wang, Lincheng Li, Yu Ding, Xin Yu<br> AAAI 2022 [论文]

<br>

图像量化器

[TE-VQGAN] 双向图像-文本生成的翻译不变图像量化器<br> Woncheol Shin, Gyubok Lee, Jiyoung Lee, Joonseok Lee, Edward Choi<br> arxiv 2021 [论文] [代码]

[ViT-VQGAN] 改进的VQGAN矢量量化图像建模<br> Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu<br> arxiv 2021 [论文]

[PeCo] PeCo:用于视觉变压器的BERT预训练的感知码书<br> Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu<br> arxiv 2021 [论文]

[VQ-GAN] 驯服变压器用于高分辨率图像合成<br> Patrick Esser, Robin Rombach, Björn Ommer<br> CVPR 2021 [论文] [代码]

[Gumbel-VQ] vq-wav2vec:离散语音表示的自监督学习<br> Alexei Baevski, Steffen Schneider, Michael Auli<br> ICLR 2020 [论文] [代码]

[EM VQ-VAE] 向量量化自动编码器的理论与实验<br> Aurko Roy, Ashish Vaswani, Arvind Neelakantan, Niki Parmar<br> arxiv 2018 [论文] [代码]

[VQ-VAE] 神经离散表示学习<br> Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu<br> NIPS 2017 [论文] [代码]

[VQ-VAE2 或 EMA-VQ] 使用VQ-VAE-2生成多样的高保真图像<br> Ali Razavi, Aaron van den Oord, Oriol Vinyals<br> NIPS 2019 [论文] [代码]

[离散VAE] 离散变分自编码器<br> Jason Tyler Rolfe<br> ICLR 2017 [论文] [代码]

[DVAE++] DVAE++:带重叠变换的离散变分自编码器<br> Arash Vahdat, William G. Macready, Zhengbing Bian, Amir Khoshaman, Evgeny Andriyash<br> ICML 2018 [论文] [代码]

[DVAE#] DVAE#:带松弛玻尔兹曼先验的离散变分自编码器<br> Arash Vahdat, Evgeny Andriyash, William G. Macready<br> NIPS 2018 [论文] [代码]

<br>

基于GAN的方法

GauGAN2<br> NVIDIA<br> [项目] [视频]

多模态条件图像合成与专家GAN产品<br> Xun Huang, Arun Mallya, Ting-Chun Wang, Ming-Yu Liu<br> arxiv 2021 [论文]

RiFeGAN2:基于约束先验知识的文本到图像生成的丰富特征生成<br> Jun Cheng, Fuxiang Wu, Yanling Tian, Lei Wang, Dapeng Tao<br> TCSVT 2021 [论文]

TRGAN:通过优化初始图像从文本生成图像<br> Liang Zhao, Xinwei Li, Pingda Huang, Zhikui Chen, Yanqi Dai, Tianyu Li<br> ICONIP 2021 [论文]

语音驱动的情感视频肖像 [Audio2Image]<br> Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, Feng Xu<br> CVPR 2021 [论文] [代码] [项目]

SketchyCOCO:从自由手绘场景草图生成图像<br> Chengying Gao, Qi Liu, Qi Xu, Limin Wang, Jianzhuang Liu, Changqing Zou<br> CVPR 2020 [论文] [代码] [项目]

直接从语音到图像的翻译 [Audio2Image]<br> Jiguo Li, Xinfeng Zhang, Chuanmin Jia, Jizheng Xu, Li Zhang, Yue Wang, Siwei Ma, Wen Gao<br> JSTSP 2020 [论文] [代码] [项目]

MirrorGAN:通过重描述学习文本到图像生成 [Text2Image]<br> Tingting Qiao, Jing Zhang, Duanqing Xu, Dacheng Tao<br> CVPR 2019 [论文] [代码]

AttnGAN:通过注意力生成对抗网络进行细粒度文本到图像生成 [Text2Image]<br> Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He<br> CVPR 2018 [论文] [代码] 即插即用生成网络:潜在空间中图像的条件迭代生成<br> Anh Nguyen, Jeff Clune, Yoshua Bengio, Alexey Dosovitskiy, Jason Yosinski<br> CVPR 2017 [论文] [代码]

StackGAN++: 基于堆叠生成对抗网络的真实图像合成 [文本到图像]<br> Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas<br> TPAMI 2018 [论文] [代码]

StackGAN: 基于堆叠生成对抗网络的文本到真实图像生成 [文本到图像]<br> Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas<br> ICCV 2017 [论文] [代码]

<br>

GAN反转方法

拖动你的GAN:基于点互动的生成图像流形操作<br> Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt<br> SIGGRAPH 2023 [论文] [代码]

HairCLIP: 用文本和参考图像设计你的发型<br> Tianyi Wei, Dongdong Chen, Wenbo Zhou, Jing Liao, Zhentao Tan, Lu Yuan, Weiming Zhang, Nenghai Yu<br> arxiv 2021 [论文] [代码]

FuseDream: 无需训练的文本到图像生成与改进的CLIP+GAN空间优化<br> Xingchao Liu, Chengyue Gong, Lemeng Wu, Shujian Zhang, Hao Su, Qiang Liu<br> arxiv 2021 [论文] [代码]

StyleMC: 基于多通道的快速文本引导图像生成与操作<br> Umut Kocasari, Alara Dirik, Mert Tiftikci, Pinar Yanardag<br> WACV 2022 [论文] [代码] [项目]

一致性循环逆向GAN用于文本到图像生成<br> Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao<br> ACM MM 2021 [论文]

StyleCLIP: 基于文本驱动的StyleGAN图像操作<br> Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, Dani Lischinski<br> ICCV 2021 [论文] [代码] [视频]

Talk-to-Edit: 通过对话进行细粒度人脸编辑<br> Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy, Ziwei Liu<br> ICCV 2021 [论文] [代码] [项目]

TediGAN: 基于文本引导的多样性人脸图像生成与操作<br> Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu<br> CVPR 2021 [论文] [代码] [视频]

按字绘画<br> David Bau, Alex Andonian, Audrey Cui, YeonHwan Park, Ali Jahanian, Aude Oliva, Antonio Torralba<br> arxiv 2021 [论文]

<br>

其他方法

基于语言的图像风格迁移<br> Tsu-Jui Fu, Xin Eric Wang, William Yang Wang<br> arxiv 2021 [论文]

CLIPstyler: 单一文本条件下的图像风格迁移<br> Gihyun Kwon, Jong Chul Ye<br> arxiv 2021 [论文] [代码]

Wakey-Wakey: 模拟GIF中角色来动画化文本<br> Liwenhan Xie, Zhaoyu Zhou, Kerun Yu, Yun Wang, Huamin Qu, Siming Chen<br> UIST 2023 [论文] [代码] [项目]

<br>

文本编码

FLAVA: 一个基础的语言和视觉对齐模型<br> Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela<br> arxiv 2021 [论文]

<!-- [[代码](https://github.com/paper11667/CLIPstyler)] -->

从自然语言监督中学习可迁移的视觉模型 (CLIP)<br> Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever<br> arxiv 2021 [论文] [代码]

<br>

音频编码

Wav2CLIP: 从CLIP中学习鲁棒的音频表示 (Wav2CLIP)<br> Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, Juan Pablo Bello<br> ICASSP 2022 [论文] [代码]

数据集

多模态 CelebA-HQ (https://github.com/IIGROUP/MM-CelebA-HQ-Dataset)

DeepFashion 多模态 (https://github.com/yumingj/DeepFashion-MultiModal)

引用

如果您在研究中使用了此代码,请引用我们的论文。

@inproceedings{zhan2023mise, title={Multimodal Image Synthesis and Editing: The Generative AI Era}, author={Zhan, Fangneng and Yu, Yingchen and Wu, Rongliang and Zhang, Jiahui and Lu, Shijian and Liu, Lingjie and Kortylewski, Adam and Theobalt, Christian and Xing, Eric}, booktitle={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2023}, publisher={IEEE} }

编辑推荐精选

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI辅助写作AI工具蛙蛙写作AI写作工具学术助手办公助手营销助手AI助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

下拉加载更多