multimodal-maestro

<div align="center"> <h1>多模态大师</h1> <br>

</div>

👋 您好

多模态大师让您对大型多模态模型有更多控制，以获得您想要的输出。通过更有效的提示策略，您可以让多模态模型完成您不知道（或不认为）可能的任务。想知道它是如何工作的吗？试试我们的HF空间！

💻 安装

⚠️ 我们的包已更名为maestro。请在3.11>=Python>=3.8环境中安装该包。

pip install maestro

🔌 API

🚧 项目仍在建设中。重新设计的API即将推出。

maestro-docs-Snap

🧑‍🍳 提示技巧手册

描述	Colab
使用多模态大师提示LMM
手动标注一张图像，让GPT-4V标注所有图像

🚀 示例

找到狗。

>>> 狗在图像中央显著位置，标记为[9]。

加载图像
```
import cv2

image = cv2.imread("...")
```

创建和优化标记

import maestro

generator = maestro.SegmentAnythingMarkGenerator(device='cuda')
marks = generator.generate(image=image)
marks = maestro.refine_marks(marks=marks)

可视化标记

mark_visualizer = maestro.MarkVisualizer()
marked_image = mark_visualizer.visualize(image=image, marks=marks)

image-vs-marked-image

提示

prompt = "找到狗。"

response = maestro.prompt_image(api_key=api_key, image=marked_image, prompt=prompt)

>>> "狗在图像中央显著位置，标记为[9]。"

提取相关标记

masks = maestro.extract_relevant_masks(text=response, detections=refined_marks)

>>> {'6': array([
...     [False, False, False, ..., False, False, False],
...     [False, False, False, ..., False, False, False],
...     [False, False, False, ..., False, False, False],
...     ...,
...     [ True,  True,  True, ..., False, False, False],
...     [ True,  True,  True, ..., False, False, False],
...     [ True,  True,  True, ..., False, False, False]])
... }

</details>

multimodal-maestro