
优化文本到图像生成的用户偏好数据集和模型
PickScore是一个开源项目,提供数据集和模型用于优化文本到图像生成的用户偏好预测。项目包含Pick-a-Pic v1和v2数据集,以及基于v1训练的PickScore模型。此外,还提供演示、安装指南、推理示例和训练脚本,方便研究人员和开发者进行实验和改进。PickScore致力于提升AI生成图像的质量和用户体验。
本仓库包含论文Pick-a-Pic:文本到图像生成的用户偏好开放数据集的代码。
我们还开源了Pick-a-Pic v2数据集(包含超过100万个示例)、Pick-a-Pic v1数据集(论文中使用的原始数据集)和PickScore模型(在v1数据集上训练)。我们鼓励读者试用Pick-a-Pic的网络应用并为数据集做出贡献。
我们在HF Spaces上为PickScore创建了一个简单的演示,欢迎查看 :)
创建虚拟环境并下载torch:
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
然后安装其余依赖:
pip install -r requirements.txt pip install -e .
或根据需要单独下载每个包
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia pip install transformers==4.27.3 # 仅训练需要 pip install git+https://github.com/huggingface/accelerate.git@d1aa558119859c4b205a324afabaecabd9ef375e pip install deepspeed==0.8.3 pip install datasets==2.10.1 pip install hydra-core==1.3.2 pip install rich==13.3.2 pip install wandb==0.12.21 pip install -e . # 仅在slurm上训练需要 pip install submitit==1.4.5 # 仅评估需要 pip install fire==0.4.0
这里展示了一个使用PickScore作为偏好预测器进行推理的示例:
# 导入 from transformers import AutoProcessor, AutoModel from PIL import Image import torch # 加载模型 device = "cuda" processor_name_or_path = "laion/CLIP-ViT-H-14-laion2B-s32B-b79K" model_pretrained_name_or_path = "yuvalkirstain/PickScore_v1" processor = AutoProcessor.from_pretrained(processor_name_or_path) model = AutoModel.from_pretrained(model_pretrained_name_or_path).eval().to(device) def calc_probs(prompt, images): # 预处理 image_inputs = processor( images=images, padding=True, truncation=True, max_length=77, return_tensors="pt", ).to(device) text_inputs = processor( text=prompt, padding=True, truncation=True, max_length=77, return_tensors="pt", ).to(device) with torch.no_grad(): # 嵌入 image_embs = model.get_image_features(**image_inputs) image_embs = image_embs / torch.norm(image_embs, dim=-1, keepdim=True) text_embs = model.get_text_features(**text_inputs) text_embs = text_embs / torch.norm(text_embs, dim=-1, keepdim=True) # 评分 scores = model.logit_scale.exp() * (text_embs @ image_embs.T)[0] # 如果有多个图像可供选择,获取概率 probs = torch.softmax(scores, dim=-1) return probs.cpu().tolist() pil_images = [Image.open("my_amazing_images/1.jpg"), Image.open("my_amazing_images/2.jpg")] prompt = "fantastic, increadible prompt" print(calc_probs(prompt, pil_images))
下载数据集大约需要30分钟,占用约190GB的磁盘空间。只需运行:
from datasets import load_dataset dataset = load_dataset("yuvalkirstain/pickapic_v1", num_proc=64) # 如果您想下载最新版本的pickapic,请下载: # dataset = load_dataset("yuvalkirstain/pickapic_v2", num_proc=64)
您也可以使用'streaming=true',这样就不会下载整个数据集。 jpg_0和jpg_1列包含图像的字节数据,可以使用PIL和io.BytesIO读取。
请注意,数据集包含超过50万张图像,因此您可以先下载验证集(添加streaming=True以避免下载整个数据集)或不包含图像的版本(仅包含图像URL):
但最近图像URL已失效。
dataset = load_dataset("yuvalkirstain/pickapic_v1_no_images") # 如果您想下载最新版本的pickapic,请下载: # dataset = load_dataset("yuvalkirstain/pickapic_v2_no_images")
注意,我们打算仅通过HF数据集允许下载图像,而不是直接从AWS下载。如果URL不起作用,请从huggingface数据集下载数据。
在训练之前,您可能想先下载数据集以节省计算资源。 此处的训练在8个A100 GPU上进行,大约需要40分钟。
accelerate launch --dynamo_backend no --gpu_ids all --num_processes 8 --num_machines 1 --use_deepspeed trainer/scripts/train.py +experiment=clip_h output_dir=output```
python trainer/slurm_scripts/slurm_train.py +slurm=stability 'slurm.cmd="+experiment=clip_h"'
python trainer/scripts/eval_preference_predictor.py
如果您觉得这项工作有用,请引用:
@inproceedings{Kirstain2023PickaPicAO, title={Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation}, author={Yuval Kirstain and Adam Polyak and Uriel Singer and Shahbuland Matiana and Joe Penna and Omer Levy}, year={2023} }


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论 文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号