Florence-2-large-PromptGen-v1.5

Florence-2-large-PromptGen v1.5 项目介绍

项目背景

Florence-2-large-PromptGen v1.5是一款用于MiaoshouAI Tagger的高级图像描述工具。该模型基于微软的Florence-2大型模型，并经过了精细的调整与训练，为图像生成精确且详尽的描述。

项目升级内容

此次升级为PromptGen的重大版本更新。主要新增了两个生成描述的指令：<GENERATE_TAGS> 和 <MIXED_CAPTION>。与此同时，得益于新训练数据集的应用，新版本显著提高了准确性，避免了过去因关键词误解而导致的不准确问题。

项目特点

详细描述：通过使用 <MORE_DETAILED_CAPTION> 指令，可以得到非常详细的图像描述。
结构化描述：使用 <DETAILED_CAPTION> 指令时，能够获取包含主体位置信息的结构化描述，并读取图像中的文本，适用于场景重建。
内存效率高：相较于其他模型，该模型拥有极高的内存效率，仅需稍多于1G的显存便可快速生成高质量图像描述。
支持Flux模型描述：设计可处理Flux模型的图像描述，包括T5XXL CLIP和CLIP_L，消除了需要运行两个不同工具生成描述的需求，极大提高了处理速度。

指令说明

<GENERATE_TAGS>：以danbooru风格生成标签。
<CAPTION>：生成图像的一行描述。
<DETAILED_CAPTION>：生成检测图像中主体位置的结构化描述。
<MORE_DETAILED_CAPTION>：生成极为详细的图像描述。
<MIXED_CAPTION>：结合了详细描述和标签的混合式描述，特别适用于同时使用T5XXL和CLIP_L的Flux模型。

版本历史

在v1.5版本中，主要更新如下：

<GENERATE_PROMPT> 指令已废弃，替代为 <GENERATE_TAGS>。
新增 <MIXED_CAPTION> 指令。
提升了 <DETAILED_CAPTION> 和 <MORE_DETAILED_CAPTION> 指令的准确性。
增强了对图像水印的识别能力。

使用方法

Florence-2-large-PromptGen v1.5可以通过 Hugging Face Model Hub直接加载使用。以下为简单的代码示例：

from transformers import AutoModelForCausalLM, AutoProcessor
import requests
from PIL import Image

model = AutoModelForCausalLM.from_pretrained("MiaoshouAI/Florence-2-large-PromptGen-v1.5", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("MiaoshouAI/Florence-2-large-PromptGen-v1.5", trust_remote_code=True)

prompt = "<MORE_DETAILED_CAPTION>"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt").to(device)

generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]

parsed_answer = processor.post_process_generation(generated_text, task=prompt, image_size=(image.width, image.height))

print(parsed_answer)