tokenize-anything

<div align="center"> <h1>通过提示实现任意分词</h1>

潘挺<sup>1,2*</sup>, 唐露露<sup>2*</sup>, 王鑫龙<sup>2¶</sup>, 山世光<sup>1</sup>

<sup>1</sup>中国科学院计算技术研究所, <sup>2</sup>北京智源人工智能研究院<br> <sup>*</sup> 同等贡献, <sup>¶</sup>项目负责人

[论文] [🤗 演示] <br><br><image src="assets/model_overview.png"/>

</div>

我们提出了通过提示实现任意分词（Tokenize Anything via Prompting，TAP），这是一个统一且可提示的模型，能够同时对任意区域进行分割、识别和描述，并支持灵活的视觉提示（点、框和草图）。该模型使用来自SA-1B的详尽分割掩码进行训练，并结合了预训练的50亿参数EVA-CLIP模型提供的语义先验知识。

安装

准备工作

torch >= 2.1

flash-attn >= 2.3.3 (用于文本生成)

gradio-image-prompter (用于Gradio应用，从URL安装)

安装包

克隆此仓库到本地磁盘并安装：

cd tokenize-anything && pip install .

你也可以从远程仓库安装：

pip install git+ssh://git@github.com/baaivision/tokenize-anything.git

快速开始

开发

TAP模型可用于各种视觉和语言任务。

我们采用模块化设计，将所有组件和预测器解耦。

作为最佳实践，请按如下方式实现您的自定义预测器和异步管道：

from tokenize_anything import model_registry

with <distributed_actor>:
    model = model_registry["<model_type>"](checkpoint="<path/to/checkpoint>")
    results = <custom_predictor>(model, *args, **kwargs)

server.collect_results()

有关更多详细信息，请参阅scripts中提供的内置示例（网页演示和评估）。

推理

请参阅推理指南。

请参阅概念指南。

评估

请参阅TAP-H评估指南。

请参阅TAP-L评估指南。

请参阅TAP-B评估指南。

模型

模型权重

V1.1 发布说明

提供三个版本的模型，使用不同的图像编码器。
采用更长的预训练和微调时间表（提高分割和描述性能）。
对所有偏置参数应用权重衰减（避免QK矩阵乘法中的FP16溢出）。
在VG训练期间从预测掩码而不是GT框中采样点提示。

模型	描述	时间表	MD5	权重
tap_vit_h	ViT-H TAP v1.1 模型	(100% SA-1B, 180k), (VG, 50ep)	4bdfb9	🤗 HF链接
tap_vit_l	ViT-L TAP v1.1 模型	(100% SA-1B, 180k), (VG, 50ep)	c1d41f	🤗 HF链接
tap_vit_b	ViT-B TAP v1.1 模型	(100% SA-1B, 180k), (VG, 50ep)	707f80	🤗 HF链接

V1.0 发布说明

提供两个版本的模型，使用不同的图像编码器。
原始论文结果。

模型	描述	时间表	MD5	权重
tap_vit_l	ViT-L TAP v1.0 模型	(50% SA-1B, 90k), (VG, 25ep)	03f8ec	🤗 HF链接
tap_vit_b	ViT-B TAP v1.0 模型	(50% SA-1B, 90k), (VG, 25ep)	b45cbf	🤗 HF链接

概念权重

注意：您可以按照概念指南生成这些权重。

概念	描述	权重
Merged-2560	合并概念	🤗 HF链接
LVIS-1203	LVIS概念	🤗 HF链接
COCO-80	COCO概念	🤗 HF链接

许可证

Apache License 2.0

引用

@article{pan2023tap,
  title={Tokenize Anything via Prompting},
  author={Pan, Ting and Tang, Lulu and Wang, Xinlong and Shan, Shiguang},
  journal={arXiv preprint arXiv:2312.09128},
  year={2023}
}