Awesome-Chinese-Stable-Diffusion

Awesome-Chinese-Stable-Diffusion

综合中文Stable Diffusion资源集锦 模型应用数据集教程

这个项目汇集了丰富的中文Stable Diffusion资源,涵盖开源模型、应用、数据集和教程。收录了10多个开源中文文生图模型,包括SkyPaint、Pai-Diffusion、Taiyi等重要模型,以及阿里云、达摩院等机构的相关成果。覆盖通用领域和特定场景如古诗配图、二次元动漫等。旨在为中文社区提供全面的SD资源,推动AI艺术创作与研究的发展。项目内容不断更新,欢迎社区参与贡献。

Stable Diffusion中文模型文生图开源AI绘画Github开源项目
<h1 align="center"> Awesome-Chinese-Stable-Diffusion </h1> <p align="center"> <font face="黑体" color=orange size=5"> An Awesome Collection for SD in Chinese </font> </p> <p align="center"> <font face="黑体" color=orange size=5"> 收集和梳理中文SD相关 </font> </p> <p align="center"> <a href="https://github.com/leeguandong/Awesome-Chinese-Stable-Diffusion/stargazers"> <img src="https://img.shields.io/github/stars/leeguandong/Awesome-Chinese-Stable-Diffusion.svg?style=popout-square" alt="GitHub stars"></a> <a href="https://github.com/leeguandong/Awesome-Chinese-Stable-Diffusion/issues"> <img src="https://img.shields.io/github/issues/leeguandong/Awesome-Chinese-Stable-Diffusion.svg?style=popout-square" alt="GitHub issues"></a> <a href="https://github.com/leeguandong/Awesome-Chinese-Stable-Diffusion/forks"> <img src="https://img.shields.io/github/forks/leeguandong/Awesome-Chinese-Stable-Diffusion.svg?style=popout-square" alt="GitHub forks"></a> </p>

本项目旨在收集和梳理中文Stable-Diffusion相关的开源模型、应用、数据集及教程等资料,主要是有中文的模型新数据和算法!

如果本项目能给您带来一点点帮助,麻烦点个⭐️吧~

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、star数,简介等相关信息,感谢~

目录

1. <a name='模型'></a>中文文生图模型

1.1 开源模型

  • SkyPaint:

    • 地址:https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion
    • 简介:SkyPaint文本生成图片模型主要由两大部分组成,即提示词文本编码器模型和扩散模型两大部分。因此我们的优化也分为两步: 首先,基于OpenAI-CLIP优化了提示词文本编码器模型使得SkyPaint具有中英文识别能力, 然后,优化了扩散模型,使得SkyPaint具有现代艺术能力可以产生高质量图片。
  • Pai-Diffusion

    • 地址:https://github.com/alibaba/EasyNLP
    • 简介:由于现有Diffusion模型主要使用英文数据进行训练,如果直接使用机器翻译将英文数据翻译成中文进行模型训练,因为中英文在文化和表达上具有很大的差异性,产出的模型通常无法建模中文特有的现象。此外,通用的StableDiffusion模型由于数据源的限制,很难用于生成特定领域、特定场景下的高清图片。PAI-Diffusion系列模型由阿里云机器学习(PAI)团队发布并开源,除了可以用于通用文图生成场景,还具有一系列特定场景的定制化中文Diffusion模型,包括古诗配图、二次元动漫、魔幻现实等。在下文中,我们首先介绍PAI-Diffusion的模型Pipeline架构,包括中文CLIP模型、Diffusion模型、图像超分模型等。
  • 中文StableDiffusion-通用领域:

  • 文本到图像生成扩散模型-中英文-通用领域-tiny:

    • 地址:https://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis_tiny/summary
    • 简介:文本到图像生成模型由文本特征提取与扩散去噪模型两个子网络组成。文本特征提取子网络为StructBert结构,扩散去噪模型为unet结构。通过StructBert提取描述文本的语义特征后,送入扩散去噪unet子网络,通过迭代去噪的过程,逐步生成复合文本描述的图像。训练数据包括LAION400M公开数据集,以及互联网图文数据。文本截断到长度64 (有效长度62),图像缩放到64x64进行处理。模型分为文本特征提取与扩散去噪模型两个子网络,训练也是分别进行。文本特征提取子网络StructBert使用大规模中文文本数据上预训练得到。扩散去噪模型则使用预训练StructBert提取文本特征后,与图像一同训练文本到图像生成模型。
  • 通义-文本生成图像大模型-中英文-通用领域:

    • 地址:https://www.modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summary
    • 简介:本模型基于多阶段文本到图像生成扩散模型, 输入描述文本,返回符合文本描述的2D图像。支持中英双语输入。文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿,支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。训练数据包括LAION5B, ImageNet, FFHQ, AFHQ, WikiArt等公开数据集。经过美学得分、水印得分、去重等预处理进行图像过滤。模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。
  • Taiyi:

    • 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM

    • 简介:Taiyi-clip:我们遵循CLIP的实验设置,以获得强大的视觉-语言表征。在训练中文版的CLIP时,我们使用chinese-roberta-wwm作为语言的编码器,并将open_clip中的ViT-L-14应用于视觉的编码器。为了快速且稳定地进行预训练,我们冻结了视觉编码器并且只微调语言编码器。此外,我们将Noah-Wukong数据集(100M)和Zero数据集(23M)用作预训练的数据集。在悟空数据集和zero数据集上预训练24轮,在A100x32上训练了6天。

      Taiyi-SD:我们将Noah-Wukong数据集(100M)和Zero数据集(23M)用作预训练的数据集,先用IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese对这两个数据集的图文对相似性进行打分,取CLIP Score大于0.2的图文对作为我们的训练集。 我们使用IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese作为初始化的text encoder,冻住stable-diffusion-v1-4(论文)模型的其他部分,只训练text encoder,以便保留原始模型的生成能力且实现中文概念的对齐。该模型目前在0.2亿图文对上训练了一个epoch。 我们在 32 x A100 训练了大约100小时。 补充: clip和sd的微调阶段都只调text encoder部分

  • Taiyi-xl-3.5B:

    • 地址:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B

    • 简介:文生图模型如谷歌的Imagen、OpenAI的DALL-E 3和Stability AI的Stable Diffusion引领了AIGC和数字艺术创作的新浪潮。然而,基于SD v1.5的中文文生图模型,如Taiyi-Diffusion-v0.1和Alt-Diffusion的效果仍然一般。中国的许多AI绘画平台仅支持英文,或依赖中译英的翻译工具。目前的开源文生图模型主要支持英文,双语支持有限。我们的工作,Taiyi-Diffusion-XL(Taiyi-XL),在这些发展的基础上,专注于保留英文理解能力的同时增强中文文生图生成能力,更好地支持双语文生图。

      Taiyi-Diffusion-XL文生图模型训练主要包括了3个阶段。首先,我们制作了一个高质量的图文对数据集,每张图片都配有详细的描述性文本。为了克服网络爬取数据的局限性,我们使用先进的视觉-语言大模型生成准确描述图片的caption。这种方法丰富了我们的数据集,确保了相关性和细节。然后,我们从预训练的英文CLIP模型开始,为了更好地支持中文和长文本我们扩展了模型的词表和位置编码,通过大规模双语数据集扩展其双语能力。训练涉及对比损失函数和内存高效的方法。最后,我们基于Stable-Diffusion-XL,替换了第二阶段获得的text encoder,在第一阶段获得的数据集上进行扩散模型的多分辨率、多宽高比训练。

      我们的机器评估包括了对不同模型的全面比较。评估指标包括CLIP相似度(CLIP Sim)、IS和FID,为每个模型在图像质量、多样性和与文本描述的对齐方面提供了全面的评估。在英文数据集(COCO)中,Taiyi-XL在所有指标上表现优异,获得了最好的CLIP Sim、IS和FID得分。这表明Taiyi-XL在生成与英文文本提示紧密对齐的图像方面非常有效,同时保持了高图像质量和多样性。同样,在中文数据集(COCO-CN)中,Taiyi-XL也超越了其他模型,展现了其强大的双语能力。

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视��频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多