ProteusV0.4

ProteusV0.4 项目介绍

ProteusV0.4是一项以提高图像生成风格能力为核心的升级项目，与Midjourney的风格处理方法类似。其目的并不是提升对提示词的理解能力，而是着重于提升艺术风格的表现。同时，项目所使用的方法并未侵犯任何版权材料。

Proteus 概述

Proteus构建于OpenDalleV1.1的基础之上，致力于提供卓越的图像生成效果。相比于前代，Proteus在响应提示词的能力和创意表达方面有显著提升。这种提升得益于对大约22万张GPTV字幕图像（来源于无版权的图库，包括一些动画内容）进行的细致微调。通过这些图像的标准化处理，以及使用DPO（直接偏好优化）技术，结合1万对高质量的AI生成图像，Proteus能够更好地理解并执行复杂的艺术风格。

在实现高性能的过程中，多种LORA（低秩适配）模型经过独立训练，然后通过动态应用方法选择性地整合到主模型中。这些技术旨在有针对性地对模型的特定部分进行调整，避免学习过程中对其他区域的干扰。结果是，Proteus在复杂面部特征展示和真实皮肤纹理表现方面均有显著提升。同时，它在包括超现实主义、动画和卡通风格的多个美学领域都展示了良好的表现能力。

截至目前，Proteus已经通过超过40万张图像的数据进行了精细化调整训练。

ProteusV0.4 的设置建议

为了获得最佳的使用效果，建议使用以下设置：

CFG 规模：设置为4到6
步骤：选择20到60步以获取更多细节，快速结果则选择20步
采样器：使用DPM++ 2M SDE
日程安排：使用Karras
分辨率：建议1280x1280或1024x1024

此外，可以使用关键词如「最佳质量」、「HD」和「美学」来改进提示词。

如果在构思提示词时遇到困难，可以使用提供的GPT工具来优化提示词。

应用于🧨diffusers

以下代码示例展示了如何在Python环境中使用ProteusV0.4生成图像：

import torch
from diffusers import (
    StableDiffusionXLPipeline, 
    KDPM2AncestralDiscreteScheduler,
    AutoencoderKL
)

# 加载VAE组件
vae = AutoencoderKL.from_pretrained(
    "madebyollin/sdxl-vae-fp16-fix", 
    torch_dtype=torch.float16
)

# 配置流水线
pipe = StableDiffusionXLPipeline.from_pretrained(
    "dataautogpt3/ProteusV0.4", 
    vae=vae,
    torch_dtype=torch.float16
)
pipe.scheduler = KDPM2AncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

# 定义提示词并生成图像
prompt = "black fluffy gorgeous dangerous cat animal creature, large orange eyes, big fluffy ears, piercing gaze, full moon, dark ambiance, best quality, extremely detailed"
negative_prompt = "nsfw, bad quality, bad anatomy, worst quality, low quality, low resolutions, extra fingers, blur, blurry, ugly, wrongs proportions, watermark, image artifacts, lowres, ugly, jpeg artifacts, deformed, noisy image"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt, 
    width=1024,
    height=1024,
    guidance_scale=4,
    num_inference_steps=20
).images[0]