karlo-v1-alpha-image-variations

项目介绍：karlo-v1-alpha-image-variations

项目概述

Karlo 是一个以文本为条件的图像生成模型，其基础架构来源于 OpenAI 的 unCLIP。它通过改进后的超分辨率模型，从64像素提升到256像素，仅需在少量去噪步骤中恢复高频细节。在此版本中，标准的超分辨率模型从64像素提升至256像素仅需要7个逆向步骤。

使用方法

安装所需环境

要使用 Karlo 模型，首先需要安装几个必要的Python包：

pip install diffusers transformers accelerate safetensors

文本生成图像

以下是一个简单的示例，通过输入文本提示生成图像：

from diffusers import UnCLIPPipeline
import torch

pipe = UnCLIPPipeline.from_pretrained("kakaobrain/karlo-v1-alpha", torch_dtype=torch.float16)
pipe = pipe.to('cuda')

prompt = "a high-resolution photograph of a big red frog on a green leaf."

image = pipe([prompt]).images[0]

image.save("./frog.png")

生成后的图像会以高分辨率显示一只大红青蛙栖息在绿叶上。

图像变体生成

如果需要生成现有图像的变体，可以使用以下代码：

from diffusers import UnCLIPImageVariationPipeline
import torch
from PIL import Image

pipe = UnCLIPImageVariationPipeline.from_pretrained("kakaobrain/karlo-v1-alpha-image-variations", torch_dtype=torch.float16)
pipe = pipe.to('cuda')

image = Image.open("./frog.png")

image = pipe(image).images[0]

image.save("./frog-variation.png")

此步骤将生成初始图像的变化版本，并将其保存。

模型架构

Karlo 的架构包括先验模块、解码器和超分辨率模块。它们协同工作以达到高效生成图像的目标。在训练过程中，超分辨率模块是通过称为 VQ-GAN 的风格损失进行额外的微调，以实现更好的细节恢复。

训练详情

Karlo 的训练基于115M 图像-文本对，包括 COYO-100M、CC3M 和 CC12M 数据集。模型使用 OpenAI CLIP 提供的 ViT-L/14 作为先验和解码器部分的大脑。在超分辨率模块的训练中，最初通过 DDPM 对象进行了100万次步骤的优化，然后又进行了234K次步骤的进一步微调。