优化文本到图像生成的用户偏好数据集和模型
PickScore是一个开源项目,提供数据集和模型用于优化文本到图像生成的用户偏好预测。项目包含Pick-a-Pic v1和v2数据集,以及基于v1训练的PickScore模型。此外,还提供演示、安装指南、推理示例和训练脚本,方便研究人员和开发者进行实验和改进。PickScore致力于提升AI生成图像的质量和用户体验。
本仓库包含论文Pick-a-Pic:文本到图像生成的用户偏好开放数据集的代码。
我们还开源了Pick-a-Pic v2数据集(包含超过100万个示例)、Pick-a-Pic v1数据集(论文中使用的原始数据集)和PickScore模型(在v1数据集上训练)。我们鼓励读者试用Pick-a-Pic的网络应用并为数据集做出贡献。
我们在HF Spaces上为PickScore创建了一个简单的演示,欢迎查看 :)
创建虚拟环境并下载torch:
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
然后安装其余依赖:
pip install -r requirements.txt pip install -e .
或根据需要单独下载每个包
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia pip install transformers==4.27.3 # 仅训练需要 pip install git+https://github.com/huggingface/accelerate.git@d1aa558119859c4b205a324afabaecabd9ef375e pip install deepspeed==0.8.3 pip install datasets==2.10.1 pip install hydra-core==1.3.2 pip install rich==13.3.2 pip install wandb==0.12.21 pip install -e . # 仅在slurm上训练需要 pip install submitit==1.4.5 # 仅评估需要 pip install fire==0.4.0
这里展示了一个使用PickScore作为偏好预测器进行推理的示例:
# 导入 from transformers import AutoProcessor, AutoModel from PIL import Image import torch # 加载模型 device = "cuda" processor_name_or_path = "laion/CLIP-ViT-H-14-laion2B-s32B-b79K" model_pretrained_name_or_path = "yuvalkirstain/PickScore_v1" processor = AutoProcessor.from_pretrained(processor_name_or_path) model = AutoModel.from_pretrained(model_pretrained_name_or_path).eval().to(device) def calc_probs(prompt, images): # 预处理 image_inputs = processor( images=images, padding=True, truncation=True, max_length=77, return_tensors="pt", ).to(device) text_inputs = processor( text=prompt, padding=True, truncation=True, max_length=77, return_tensors="pt", ).to(device) with torch.no_grad(): # 嵌入 image_embs = model.get_image_features(**image_inputs) image_embs = image_embs / torch.norm(image_embs, dim=-1, keepdim=True) text_embs = model.get_text_features(**text_inputs) text_embs = text_embs / torch.norm(text_embs, dim=-1, keepdim=True) # 评分 scores = model.logit_scale.exp() * (text_embs @ image_embs.T)[0] # 如果有多个图像可供选择,获取概率 probs = torch.softmax(scores, dim=-1) return probs.cpu().tolist() pil_images = [Image.open("my_amazing_images/1.jpg"), Image.open("my_amazing_images/2.jpg")] prompt = "fantastic, increadible prompt" print(calc_probs(prompt, pil_images))
下载数据集大约需要30分钟,占用约190GB的磁盘空间。只需运行:
from datasets import load_dataset dataset = load_dataset("yuvalkirstain/pickapic_v1", num_proc=64) # 如果您想下载最新版本的pickapic,请下载: # dataset = load_dataset("yuvalkirstain/pickapic_v2", num_proc=64)
您也可以使用'streaming=true',这样就不会下载整个数据集。 jpg_0和jpg_1列包含图像的字节数据,可以使用PIL和io.BytesIO读取。
请注意,数据集包含超过50万张图像,因此您可以先下载验证集(添加streaming=True
以避免下载整个数据集)或不包含图像的版本(仅包含图像URL):
但最近图像URL已失效。
dataset = load_dataset("yuvalkirstain/pickapic_v1_no_images") # 如果您想下载最新版本的pickapic,请下载: # dataset = load_dataset("yuvalkirstain/pickapic_v2_no_images")
注意,我们打算仅通过HF数据集允许下载图像,而不是直接从AWS下载。如果URL不起作用,请从huggingface数据集下载数据。
在训练之前,您可能想先下载数据集以节省计算资源。 此处的训练在8个A100 GPU上进行,大约需要40分钟。
accelerate launch --dynamo_backend no --gpu_ids all --num_processes 8 --num_machines 1 --use_deepspeed trainer/scripts/train.py +experiment=clip_h output_dir=output```
python trainer/slurm_scripts/slurm_train.py +slurm=stability 'slurm.cmd="+experiment=clip_h"'
python trainer/scripts/eval_preference_predictor.py
如果您觉得这项工作有用,请引用:
@inproceedings{Kirstain2023PickaPicAO, title={Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation}, author={Yuval Kirstain and Adam Polyak and Uriel Singer and Shahbuland Matiana and Joe Penna and Omer Levy}, year={2023} }
AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
最强AI数据分析助手
小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。
像人一样思考的AI智能体
imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。
AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
一站式AI创作平台
提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作
AI办公助手,复杂任务高效处理
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。