PixArt-Σ: 突破性的4K文本到图像生成模型

RayRay
PixArt-Σ文生图扩散模型Transformer4K图像生成Github开源项目

PixArt-Σ简介

PixArt-Σ是由华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员共同开发的一款先进的文本到图像生成模型。作为PixArt-α的升级版,PixArt-Σ采用了创新的弱到强训练方法,成功突破了之前模型的限制,能够直接生成高达4K分辨率的精美图像。

PixArt-Σ logo

核心特点与优势

PixArt-Σ相比其前身PixArt-α以及其他现有模型有以下几个显著的优势:

  1. 超高分辨率输出: PixArt-Σ能够直接生成4K(3840x2160)分辨率的图像,这在文本到图像生成领域是一个重大突破。

  2. 更长的文本输入: 模型支持处理最多300个T5 token的输入文本,相比PixArt-α的120个token有了很大提升,能够理解和呈现更加复杂和细致的描述。

  3. 升级的VAE: 采用了SDXL的VAE,进一步提升了图像质量和细节表现。

  4. 更高的图像保真度: 生成的图像在细节、质量和与文本提示的一致性方面都有显著提升。

  5. 灵活的分辨率支持: 除了4K之外,还提供了256px、512px、1024px和2K等多种分辨率的预训练模型。

模型架构与训练

PixArt-Σ基于Diffusion Transformer (DiT)架构,采用了创新的弱到强训练策略。这种方法允许模型从低分辨率逐步学习到高分辨率图像生成,有效克服了直接训练高分辨率模型的困难。

训练过程中使用了大规模的图文对数据集,并结合了多种先进的优化技术,如多尺度训练、渐进式学习等。这些策略共同确保了模型能够生成高质量、高分辨率的图像。

实际效果展示

为了直观地展示PixArt-Σ的强大能力,我们来看几组对比样例:

模型样例1样例2样例3
PixArt-ΣPixArt-Σ样例1PixArt-Σ样例2PixArt-Σ样例3
PixArt-αPixArt-α样例1PixArt-α样例2PixArt-α样例3

从这些样例中我们可以清楚地看到,PixArt-Σ生成的图像在细节丰富度、色彩表现和整体质感上都有了显著提升。特别是在复杂场景和微小细节的呈现方面,PixArt-Σ展现出了卓越的能力。

使用指南

环境配置

要开始使用PixArt-Σ,首先需要配置适当的环境。建议使用Python 3.9或更高版本,并安装PyTorch 2.0.1+cu11.7。以下是基本的安装步骤:

conda create -n pixart python==3.9.0 conda activate pixart conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia git clone https://github.com/PixArt-alpha/PixArt-sigma.git cd PixArt-sigma pip install -r requirements.txt

模型下载

PixArt-Σ提供了多个预训练模型,覆盖了从256px到4K的不同分辨率。您可以根据需求选择合适的模型:

# 下载SDXL-VAE和T5 checkpoints git lfs install git clone https://huggingface.co/PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers output/pretrained_models/pixart_sigma_sdxlvae_T5_diffusers # 下载PixArt-Sigma checkpoints python tools/download.py

快速开始

使用Gradio界面可以快速体验PixArt-Σ的图像生成能力:

python scripts/interface.py --model_path output/pretrained_models/PixArt-Sigma-XL-2-512-MS.pth --image_size 512 --port 11223

使用Diffusers库

PixArt-Σ已经集成到了流行的Diffusers库中,这使得在各种项目中使用该模型变得更加简单:

import torch from diffusers import Transformer2DModel, PixArtSigmaPipeline device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") weight_dtype = torch.float16 transformer = Transformer2DModel.from_pretrained( "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS", subfolder='transformer', torch_dtype=weight_dtype, use_safetensors=True, ) pipe = PixArtSigmaPipeline.from_pretrained( "PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers", transformer=transformer, torch_dtype=weight_dtype, use_safetensors=True, ) pipe.to(device) prompt = "A small cactus with a happy face in the Sahara desert." image = pipe(prompt).images[0] image.save("./cactus.png")

未来发展

PixArt-Σ的发布无疑为文本到图像生成领域带来了新的可能性。研究团队表示,他们将继续优化模型性能,并计划在未来发布更多功能:

  1. 一步采样技术的训练和推理代码
  2. LoRA (Low-Rank Adaptation) 训练和推理代码
  3. ControlNet的训练和推理代码
  4. 模型压缩技术(如KV Compress)
  5. 与ComfyUI等流行工具的集成

结语

PixArt-Σ的出现标志着AI图像生成技术又向前迈进了一大步。它不仅能够生成令人惊叹的4K高清图像,还在处理复杂文本描述、保持图像细节和整体质量方面都有显著提升。无论是对于研究人员、设计师还是普通用户,PixArt-Σ都提供了一个强大而灵活的创作工具。

随着技术的不断发展和完善,我们可以期待在不久的将来,AI生成的图像将在质量和多样性上达到一个全新的高度。PixArt-Σ无疑为这一未来铺平了道路,让我们共同期待AI图像生成技术的更多突破和创新应用。

编辑推荐精选

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

下拉加载更多