PickScore

PickScore

优化文本到图像生成的用户偏好数据集和模型

PickScore是一个开源项目,提供数据集和模型用于优化文本到图像生成的用户偏好预测。项目包含Pick-a-Pic v1和v2数据集,以及基于v1训练的PickScore模型。此外,还提供演示、安装指南、推理示例和训练脚本,方便研究人员和开发者进行实验和改进。PickScore致力于提升AI生成图像的质量和用户体验。

PickScore数据集文本生成图像用户偏好开源项目Github

PickScore

本仓库包含论文Pick-a-Pic:文本到图像生成的用户偏好开放数据集的代码。

我们还开源了Pick-a-Pic v2数据集(包含超过100万个示例)、Pick-a-Pic v1数据集(论文中使用的原始数据集)和PickScore模型(在v1数据集上训练)。我们鼓励读者试用Pick-a-Pic的网络应用并为数据集做出贡献。

演示

我们在HF Spaces上为PickScore创建了一个简单的演示,欢迎查看 :)

安装

创建虚拟环境并下载torch:

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

然后安装其余依赖:

pip install -r requirements.txt pip install -e .

或根据需要单独下载每个包

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia pip install transformers==4.27.3 # 仅训练需要 pip install git+https://github.com/huggingface/accelerate.git@d1aa558119859c4b205a324afabaecabd9ef375e pip install deepspeed==0.8.3 pip install datasets==2.10.1 pip install hydra-core==1.3.2 pip install rich==13.3.2 pip install wandb==0.12.21 pip install -e . # 仅在slurm上训练需要 pip install submitit==1.4.5 # 仅评估需要 pip install fire==0.4.0

使用PickScore进行推理

这里展示了一个使用PickScore作为偏好预测器进行推理的示例:

# 导入 from transformers import AutoProcessor, AutoModel from PIL import Image import torch # 加载模型 device = "cuda" processor_name_or_path = "laion/CLIP-ViT-H-14-laion2B-s32B-b79K" model_pretrained_name_or_path = "yuvalkirstain/PickScore_v1" processor = AutoProcessor.from_pretrained(processor_name_or_path) model = AutoModel.from_pretrained(model_pretrained_name_or_path).eval().to(device) def calc_probs(prompt, images): # 预处理 image_inputs = processor( images=images, padding=True, truncation=True, max_length=77, return_tensors="pt", ).to(device) text_inputs = processor( text=prompt, padding=True, truncation=True, max_length=77, return_tensors="pt", ).to(device) with torch.no_grad(): # 嵌入 image_embs = model.get_image_features(**image_inputs) image_embs = image_embs / torch.norm(image_embs, dim=-1, keepdim=True) text_embs = model.get_text_features(**text_inputs) text_embs = text_embs / torch.norm(text_embs, dim=-1, keepdim=True) # 评分 scores = model.logit_scale.exp() * (text_embs @ image_embs.T)[0] # 如果有多个图像可供选择,获取概率 probs = torch.softmax(scores, dim=-1) return probs.cpu().tolist() pil_images = [Image.open("my_amazing_images/1.jpg"), Image.open("my_amazing_images/2.jpg")] prompt = "fantastic, increadible prompt" print(calc_probs(prompt, pil_images))

下载Pick-a-Pic数据集

下载数据集大约需要30分钟,占用约190GB的磁盘空间。只需运行:

from datasets import load_dataset dataset = load_dataset("yuvalkirstain/pickapic_v1", num_proc=64) # 如果您想下载最新版本的pickapic,请下载: # dataset = load_dataset("yuvalkirstain/pickapic_v2", num_proc=64)

您也可以使用'streaming=true',这样就不会下载整个数据集。 jpg_0和jpg_1列包含图像的字节数据,可以使用PIL和io.BytesIO读取。

请注意,数据集包含超过50万张图像,因此您可以先下载验证集(添加streaming=True以避免下载整个数据集)或不包含图像的版本(仅包含图像URL): 但最近图像URL已失效。

dataset = load_dataset("yuvalkirstain/pickapic_v1_no_images") # 如果您想下载最新版本的pickapic,请下载: # dataset = load_dataset("yuvalkirstain/pickapic_v2_no_images")

注意,我们打算仅通过HF数据集允许下载图像,而不是直接从AWS下载。如果URL不起作用,请从huggingface数据集下载数据。

从头开始训练PickScore

在训练之前,您可能想先下载数据集以节省计算资源。 此处的训练在8个A100 GPU上进行,大约需要40分钟。

本地

accelerate launch --dynamo_backend no --gpu_ids all --num_processes 8 --num_machines 1 --use_deepspeed trainer/scripts/train.py +experiment=clip_h output_dir=output```

Slurm

python trainer/slurm_scripts/slurm_train.py +slurm=stability 'slurm.cmd="+experiment=clip_h"'

在Pick-a-Pic上测试PickScore

python trainer/scripts/eval_preference_predictor.py

引用

如果您觉得这项工作有用,请引用:

@inproceedings{Kirstain2023PickaPicAO, title={Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation}, author={Yuval Kirstain and Adam Polyak and Uriel Singer and Shahbuland Matiana and Joe Penna and Omer Levy}, year={2023} }

编辑推荐精选

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

热门AI工具AI办公办公工具智能排版AI生成PPT博思AIPPT海量精品模板AI创作
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

下拉加载更多