VLM_survey

VLM_survey

用于视觉任务的 AWESOME 视觉语言模型集合

本页面详尽介绍了视觉语言模型(VLM)在视觉识别任务中的应用和发展。内容涵盖VLM的起源、常用架构、预训练目标、主流数据集及不同的预训练方式、迁移学习和知识蒸馏方法,并针对这些方法进行了详细的基准测试和分析。页面还讨论了未来研究的挑战和方向,让用户掌握VLM技术在图像分类、对象检测和语义分割等任务中的最新应用进展。

Vision-Language Models视觉识别任务预训练方法知识蒸馏数据集Github开源项目

Awesome Vision-Language Models Awesome

<img src="https://yellow-cdn.veclightyear.com/35dd4d3f/3d12b93e-9d9b-4062-90c1-cb938ef025ee.png" width="96%" height="96%">

这是视觉任务的视觉语言模型:综述的代码库, 系统性地调查了在各种视觉识别任务中VLM研究,包括图像分类、目标检测、语义分割等。详情请参考:

视觉任务的视觉语言模型:综述 [论文]

IEEE模式分析与机器智能交易 (TPAMI), 2024

arXiv 维护 欢迎提交PR

<!-- [![使用Markdown制作](https://yellow-cdn.veclightyear.com/35dd4d3f/47624956-3846-47b0-a89c-8d4b6e176281.svg)](http://commonmark.org) --> <!-- [![文档状态](https://yellow-cdn.veclightyear.com/35dd4d3f/e0467670-39be-4445-97dd-ad39663d621a.png)](http://ansicolortags.readthedocs.io/?badge=latest) -->

如果您发现这里没有收录的相关论文,欢迎提交请求或联系我们。

提交请求的流程如下:

  • a. 将项目fork到您自己的代码库。
  • b. 在 README.md 中使用以下格式添加标题、论文链接、会议、项目/代码链接:
  |[标题](论文链接)|会议|[代码/项目](代码/项目链接)|
  • c. 提交请求到此分支。

🔥 新闻

最后更新于2024年7月24日

VLM预训练方法

  • [CVPR 2024] 通过聚类掩码实现高效的视觉语言预训练 [论文][代码]
  • [CVPR 2024] 迈向更好的视觉启发的视觉语言模型 [论文]
  • [CVPR 2024] 非自回归序列到序列的视觉语言模型 [论文]
  • [CVPR 2024] ViTamin: 设计可扩展的视觉语言时代视觉模型 [论文][代码]
  • [CVPR 2024] 迭代学习提高大视觉语言模型的组合性 [论文]
  • [CVPR 2024] FairCLIP: 在视觉语言学习中利用公平性 [论文][代码]
  • [CVPR 2024] InternVL: 扩展视觉基础模型并对齐通用视觉语言任务 [论文][代码]
  • [CVPR 2024] VILA: 视觉语言模型预训练研究 [论文]
  • [CVPR 2024] 用生成区域-语言预训练进行开放式目标检测 [论文][代码]
  • [CVPR 2024] 通过丰富的监督增强视觉语言预训练 [论文]
  • [ICLR 2024] 通过动态离散视觉量化在大语言模型中实现统一的语言-视觉预训练 [论文][代码]
  • [ICLR 2024] MMICL: 通过多模态情境学习增强视觉语言模型 [论文][代码]
  • [ICLR 2024] 检索增强的对比视觉-文本模型 [论文]

VLM迁移学习方法

  • [ECCV 2024] CLAP: 通过增强式提示的对比学习分离内容和样式 [论文][代码]
  • [ECCV 2024] FALIP: 视觉提示作为中央视觉增强提升CLIP的零样本性能 [论文][代码]
  • [ECCV 2024] GalLoP: 学习视觉语言模型的全局和局部提示 [论文]
  • [ECCV 2024] 注意干扰:在视觉语言模型参数高效持续学习中保持预训练知识 [论文][代码]
  • [CVPR 2024] 一个提示词足以提升预训练视觉语言模型的对抗鲁棒性 [论文][代码]
  • [CVPR 2024] 通用分布的任何偏移提示 [论文]
  • [CVPR 2024] 深入探讨大型视觉语言模型的少样本适应 [论文][代码]
  • [CVPR 2024] 基于锚点的视觉语言模型鲁棒微调 [论文]
  • [CVPR 2024] 预训练视觉和语言变压器是少样本增量学习者 [论文][代码]
  • [CVPR 2024] 视觉情境提示 [论文][代码]
  • [CVPR 2024] TCP:基于文本的类别感知提示调优视觉语言模型 [论文][代码]
  • [CVPR 2024] 视觉语言模型的高效测试时适应 [论文][代码]
  • [CVPR 2024] 双记忆网络:视觉语言模型的多功能适应方法 [论文][代码]
  • [ICLR 2024] DePT: 通过分解提示调优实现参数高效微调 [论文][代码]
  • [ICLR 2024] Nemesis: 标准化视觉语言模型的软提示向量 [论文]
  • [ICLR 2024] 用于持续学习的提示梯度投影 [论文]
  • [ICLR 2024] 一张图值千词:跨提示在视觉语言模型上对抗图片的可转移性 [论文]
  • [ICLR 2024] Matcher: 使用通用特征匹配进行单次段落任何东西 [论文][代码]
  • [ICLR 2024] 在联邦学习中为视觉语言模型生成的文本驱动提示 [论文]
  • [ICLR 2024] 一致性指导的视觉语言模型提示学习 [论文]
  • [ICLR 2024] C-TPT: 通过文本特征分散进行视觉语言模型的校准测试时提示调优 [论文]
  • [arXiv 2024] 学习提示分割任何模型 [论文]

VLM知识蒸馏用于检测

  • [CVPR 2024] RegionGPT: 迈向区域理解的视觉语言模型 [论文][代码]
  • [ICLR 2024] LLMs遇见VLMs:用细粒度描述提升开放词汇物体检测 [论文]
  • [ICLR 2024] Ins-DetCLIP: 对齐检测模型以遵循人类语言指令 [论文]

VLM知识蒸馏用于分割

  • [ICLR 2024] CLIPSelf: 视觉变压器为开放词汇密集预测提供自我蒸馏 [论文]

VLM知识蒸馏用于其他视觉任务

  • [ICLR 2024] FROSTER: 冻结的CLIP是开放词汇动作识别的强教师 [论文][项目]
  • [ICLR 2024] AnomalyCLIP: 用于零样本异常检测的对象无关提示学习 [论文][代码]

摘要

大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖于人群标注数据,通常为每个单一视觉识别任务训练一个DNN,导致费力且耗时的视觉识别范式。为了解决这两个挑战,最近对视觉语言模型(VLM)进行了深入研究,通过几乎无限可用的网络规模图像-文本对学习丰富的视觉语言关联,并使用单个VLM在各种视觉识别任务上实现零样本预测。本文对各种视觉识别任务中的视觉语言模型进行了系统综述,包括:(1) 介绍视觉识别范式发展的背景;(2) 总结广泛采用的网络架构、预训练目标和下游任务的VLM基础;(3) 在VLM预训练和评估中使用的广泛数据集;(4) 对现有VLM预训练方法、VLM迁移学习方法和VLM知识蒸馏方法的回顾和分类;(5) 对各方法的基准测试、分析和讨论;(6) 未来VLM研究中的几个研究挑战和潜在研究方向。

引用

如果您觉得我们的工作对您的研究有帮助,请考虑引用:

@article{zhang2024vision,
  title={视觉任务的视觉语言模型:综述},
  author={张静怡,黄嘉兴,金盛,鲁世杰},
  journal={IEEE模式分析与机器智能交易},
  year={2024},
  publisher={IEEE}
}

目录

数据集

VLM预训练数据集

数据集年份图像-文本对数量语言项目
SBU Caption20111M英语项目
COCO Caption20161.5M英语项目
Yahoo Flickr Creative Commons 100 Million2016100M英语项目
Visual Genome20175.4M英语项目
Conceptual Captions 3M20183.3M英语项目
Localized Narratives20200.87M英语项目
Conceptual 12M202112M英语项目
Wikipedia-based Image Text202137.6M108种语言项目
Red Caps202112M英语项目
LAION400M2021400M英语项目
LAION5B20225B超过100种语言项目
WuKong2022100M中文项目
CLIP2021400M英语-
ALIGN20211.8B英语-
FILIP2021300M英语-
WebLI202212B英语-

VLM评估数据集

图像分类

数据集年份类别训练集测试集评估指标项目
MNIST19981060,00010,000准确率项目
Caltech-10120041023,0606,085平均类别准确率项目
PASCAL VOC 20072007205,0114,95211点mAP项目
Oxford 102 Flowers20081022,0406,149平均类别准确率项目
CIFAR-1020091050,00010,000准确率项目
CIFAR-100200910050,00010,000准确率项目
ImageNet-1k200910001,281,16750,000准确率项目
SUN397201039719,85019,850准确率项目
SVHN20111073,25726,032准确率项目
STL-102011101,0008,000准确率项目
GTSRB20114326,64012,630准确率项目
KITTI Distance201246,770711准确率项目
IIIT5k2012362,0003,000准确率项目
Oxford-IIIT PETS2012373,6803,669平均类别准确率项目
Stanford Cars20131968,1448,041准确率项目
FGVC Aircraft20131006,6673,333平均类别准确率项目
Facial Emotion2013832,1403,574准确率项目
Rendered SST2201327,7921,821准确率项目
Describable Textures2014473,7601,880准确率项目
Food-101201410175,75025,250准确率项目
Birdsnap201450042,2832,149准确率项目
RESISC452017453,15025,200准确率项目
CLEVR Counts201782,000500准确率项目
PatchCamelyon20182294,91232,768准确率项目
EuroSAT20191010,0005,000准确率项目
Hateful Memes202028,500500ROC AUC项目
Country211202121143,20021,100准确率项目

图像-文本检索

数据集年份类别训练集测试集评估指标项目
Flickr30k2014-31,783-召回率项目
COCO Caption2015-82,7835,000召回率项目

动作识别

数据集年份类别训练集测试集评估指标项目
UCF10120121019,5371,794准确率项目
Kinetics7002019700494,80131,669平均 (top1, top5)项目
RareAct20201227,607-mWAP, mSAP项目

目标检测

数据集年份类别训练集测试集评估指标项目
COCO 2014 Detection20148083,00041,000Box mAP项目
COCO 2017 Detection201780118,0005,000Box mAP项目
LVIS20191203118,0005,000Box mAP项目
ODinW2022314132,41320,070Box mAP项目

语义分割

数据集年份类别训练集测试集评估指标项目
PASCAL VOC 20122012201,4641,449mIoU项目
PASCAL Content20144594,9985,105mIoU项目
Cityscapes2016192,975500mIoU项目
ADE20k201715025,5742,000mIoU项目

视觉-语言预训练方法

对比目标的预训练

论文标题发表会议代码/项目
CLIP: Learning Transferable Visual Models From Natural Language SupervisionICML 2021代码
ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text SupervisionICML 2021-
OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport DistillationarXiv 2021代码
Florence: A New Foundation Model for Computer VisionarXiv 2021-
RegionClip: Region-based Language-Image PretrainingarXiv 2021代码
DeCLIP: Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training ParadigmICLR 2022代码
FILIP: Fine-grained Interactive Language-Image Pre-TrainingICLR 2022-
KELIP: Large-scale Bilingual Language-Image Contrastive LearningICLRW 2022代码
ZeroVL: Contrastive Vision-Language Pre-training with Limited ResourcesECCV 2022代码
SLIP: Self-supervision meets Language-Image Pre-trainingECCV 2022代码
UniCL: Unified Contrastive Learning in Image-Text-Label SpaceCVPR 2022代码
LiT: Zero-Shot Transfer with Locked-image text TuningCVPR 2022代码
GroupViT: Semantic Segmentation Emerges from Text SupervisionCVPR 2022代码
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model PretrainingNeurIPS 2022-
UniCLIP: Unified Framework for Contrastive Language-Image Pre-trainingNeurIPS 2022-
K-LITE: Learning Transferable Visual Models with External KnowledgeNeurIPS 2022代码
FIBER: Coarse-to-Fine Vision-Language Pre-training with Fusion in the BackboneNeurIPS 2022代码
Chinese CLIP: Contrastive Vision-Language Pretraining in ChinesearXiv 2022代码
AltCLIP: Altering the Language Encoder in CLIP for Extended Language CapabilitiesarXiv 2022代码
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic SegmentationarXiv 2022代码
NLIP: Noise-robust Language-Image Pre-trainingAAAI 2023-
PaLI: A Jointly-Scaled Multilingual Language-Image ModelICLR 2023项目
HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware AttentionICLR 2023代码
CLIPPO: Image-and-Language Understanding from Pixels OnlyCVPR 2023代码
RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-trainingCVPR 2023-
DeAR: Debiasing Vision-Language Models with Additive ResidualsCVPR 2023-
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-TrainingCVPR 2023代码
LaCLIP: Improving CLIP Training with Language RewritesNeurIPS 2023代码
ALIP: Adaptive Language-Image Pre-training with Synthetic CaptionICCV 2023代码
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-trainingICCV 2023-
CLIPpy: Perceptual Grouping in Contrastive Vision-Language ModelsICCV 2023-

预训练与生成目标

论文标题发表会议代码/项目
FLAVA: A Foundational Language And Vision Alignment ModelCVPR 2022代码
CoCa: Contrastive Captioners are Image-Text Foundation ModelsarXiv 2022代码
Too Large; Data Reduction for Vision-Language Pre-TrainingarXiv 2023代码
SAM: Segment AnythingarXiv 2023代码
SEEM: Segment Everything Everywhere All at OncearXiv 2023代码
Semantic-SAM: Segment and Recognize Anything at Any GranularityarXiv 2023代码

预训练与对齐目标

论文标题发表会议代码/项目
GLIP: Grounded Language-Image Pre-trainingCVPR 2022代码
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world DetectionNeurIPS 2022-
nCLIP: Non-Contrastive Learning Meets Language-Image Pre-TrainingCVPR 2023代码

视觉-语言模型迁移学习方法

带提示调优的迁移

带文本提示调优的迁移

论文标题发表时间代码/项目
CoOp: Learning to Prompt for Vision-Language ModelsIJCV 2022代码
CoCoOp: Conditional Prompt Learning for Vision-Language ModelsCVPR 2022代码
ProDA: Prompt Distribution LearningCVPR 2022-
DenseClip: Language-Guided Dense Prediction with Context-Aware PromptingCVPR 2022代码
TPT: Test-time prompt tuning for zero-shot generalization in vision-language modelsNeurIPS 2022代码
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited AnnotationsNeurIPS 2022代码
CPL: Counterfactual Prompt Learning for Vision and Language ModelsEMNLP 2022代码
Bayesian Prompt Learning for Image-Language Model GeneralizationarXiv 2022-
UPL: Unsupervised Prompt Learning for Vision-Language ModelsarXiv 2022代码
ProGrad: Prompt-aligned Gradient for Prompt TuningarXiv 2022代码
SoftCPT: Prompt Tuning with Soft Context Sharing for Vision-Language ModelsarXiv 2022代码
SubPT: Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language ModelsTCSVT 2023代码
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language ModelsCVPR 2023代码
LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual RecognitionarXiv 2023代码
Texts as Images in Prompt Tuning for Multi-Label Image RecognitionCVPR 2023代码
Visual-Language Prompt Tuning with Knowledge-guided Context OptimizationCVPR 2023代码
Learning to Name Classes for Vision and Language ModelsCVPR 2023-
PLOT: Prompt Learning with Optimal Transport for Vision-Language ModelsICLR 2023代码
CuPL: What does a platypus look like? Generating customized prompts for zero-shot image classificationICCV 2023代码
ProTeCt: Prompt Tuning for Hierarchical ConsistencyarXiv 2023-
Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label Prompt TuningarXiv 2023代码
Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?ICCV 2023代码
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language ModelsICCV 2023-
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language ModelsICCV 2023-
Read-only Prompt Optimization for Vision-Language Few-shot LearningICCV 2023代码
Bayesian Prompt Learning for Image-Language Model GeneralizationICCV 2023代码
Distribution-Aware Prompt Tuning for Vision-Language ModelsICCV 2023代码
LPT: Long-Tailed Prompt Tuning For Image ClassificationICCV 2023代码
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt TuningICCV 2023代码
CLAP: Isolating Content from Style through Contrastive Learning with Augmented PromptsECCV 2024代码

Transfer with Visual Prompt Tuning

论文标题发表时间代码/项目
Exploring Visual Prompts for Adapting Large-Scale ModelsarXiv 2022代码
Retrieval-Enhanced Visual Prompt Learning for Few-shot ClassificationarXiv 2023-
Fine-Grained Visual PromptingarXiv 2023-
LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language ModelsICCV 2023代码

Transfer with Text and Visual Prompt Tuning

论文标题发表时间代码/项目
UPT: Unified Vision and Language Prompt LearningarXiv 2022代码
MVLPT: Multitask Vision-Language Prompt TuningarXiv 2022代码
CAVPT: Dual Modality Prompt Tuning for Vision-Language Pre-Trained ModelarXiv 2022代码
MaPLe: Multi-modal Prompt LearningCVPR 2023代码

Transfer with Feature Adapter

论文标题发表时间代码/项目
Clip-Adapter: Better Vision-Language Models with Feature AdaptersarXiv 2021代码
Tip-Adapte: Training-free Adaption of CLIP for Few-shot ClassificationECCV 2022代码
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained ModelsBMVC 2022代码
CLIPPR: Improving Zero-Shot Models with Label Distribution PriorsarXiv 2022代码
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image ClassificationarXiv 2022-
SuS-X: Training-Free Name-Only Transfer of Vision-Language ModelsICCV 2023代码
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity ControlICCV 2023代码
SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and MorearXiv 2023代码
Segment Anything in High QualityarXiv 2023代码
HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical UnderstandingarXiv 2023代码
CLAP: Contrastive Learning with Augmented Prompts for Robustness on Pretrained Vision-Language ModelsarXiv 2023-
论文发表在代码/项目
---------------------------------------------------:-------------::------------:
VT-Clip: Enhancing Vision-Language Models with Visual-guided TextsarXiv 2021-
Wise-FT: Robust fine-tuning of zero-shot modelsCVPR 2022代码
MaskCLIP: Extract Free Dense Labels from CLIPECCV 2022代码
MUST: Masked Unsupervised Self-training for Label-free Image ClassificationICLR 2023代码
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free AttentionAAAI 2023代码
Semantic Prompt for Few-Shot Image RecognitionCVPR 2023-
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot LearnersCVPR 2023代码
Task Residual for Tuning Vision-Language ModelsCVPR 2023代码
Deeply Coupled Cross-Modal Prompt LearningACL 2023代码
Prompt Ensemble Self-training for Open-Vocabulary Domain AdaptationarXiv 2023-
Personalize Segment Anything Model with One ShotarXiv 2023代码
Chils: Zero-shot image classification with hierarchical label setsICML 2023代码
Improving Zero-shot Generalization and Robustness of Multi-modal ModelsCVPR 2023代码
Exploiting Category Names for Few-Shot Classification with Vision-Language ModelsICLR W 2023-
Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language ModelsarXiv 2023代码
Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language ModelsICCV 2023代码
PromptStyler: Prompt-driven Style Generation for Source-free Domain GeneralizationICCV 2023代码
PADCLIP: Pseudo-labeling with Adaptive Debiasing in CLIP for Unsupervised Domain AdaptationICCV 2023-
Black Box Few-Shot Adaptation for Vision-Language modelsICCV 2023代码
AD-CLIP: Adapting Domains in Prompt Space Using CLIPICCVW 2023-
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction TuningarXiv 2023代码
Language Models as Black-Box Optimizers for Vision-Language ModelsarXiv 2023-

视觉-语言模型知识蒸馏方法

用于对象检测的知识蒸馏

论文发表在代码/项目
ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge DistillationICLR 2022代码
DetPro: Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language ModelCVPR 2022代码
XPM: Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-LabelingCVPR 2022代码
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary DetectionNeurIPS 2022代码
PromptDet: Towards Open-vocabulary Detection using Uncurated ImagesECCV 2022代码
PB-OVD: Open Vocabulary Object Detection with Pseudo Bounding-Box LabelsECCV 2022代码
OV-DETR: Open-Vocabulary DETR with Conditional MatchingECCV 2022代码
Detic: Detecting Twenty-thousand Classes using Image-level SupervisionECCV 2022代码
OWL-ViT: Simple Open-Vocabulary Object Detection with Vision TransformersECCV 2022代码
VL-PLM: Exploiting Unlabeled Data with Vision and Language Models for Object DetectionECCV 2022代码
ZSD-YOLO: Zero-shot Object Detection Through Vision-Language Embedding AlignmentarXiv 2022代码
HierKD: Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge DistillationarXiv 2022代码
VLDet: Learning Object-Language Alignments for Open-Vocabulary Object DetectionICLR 2023代码
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language ModelsICLR 2023代码
CondHead: Learning to Detect and Segment for Open Vocabulary Object DetectionCVPR 2023-
Aligning Bag of Regions for Open-Vocabulary Object DetectionCVPR 2023代码
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision TransformersCVPR 2023代码
Object-Aware Distillation Pyramid for Open-Vocabulary Object DetectionCVPR 2023代码
CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-MatchingCVPR 2023代码
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region AlignmentCVPR 2023-
Detecting Everything in the Open World: Towards Universal Object DetectionCVPR 2023代码
CapDet: Unifying Dense Captioning and Open-World Detection PretrainingCVPR 2023-
Contextual Object Detection with Multimodal Large Language ModelsarXiv 2023代码
Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD Detection Using Text-image ModelsarXiv 2023代码
EdaDet: Open-Vocabulary Object Detection Using Early Dense AlignmentICCV 2023代码
Improving Pseudo Labels for Open-Vocabulary Object DetectionarXiv 2023-

用于语义分割的知识蒸馏

论文发表年份代码/项目
SSIW: 在不进行任何分割示例的情况下进行“野外”语义分割arXiv 2021-
ReCo: 用于零样本迁移的检索和共分割NeurIPS 2022代码
CLIMS: 用于弱监督语义分割的跨语言图像匹配CVPR 2022代码
CLIPSeg: 使用文本和图像提示进行图像分割CVPR 2022代码
ZegFormer: 解耦零样本语义分割CVPR 2022代码
LSeg: 由语言驱动的语义分割ICLR 2022代码
ZSSeg: 使用预训练视觉-语言模型进行开放词汇语义分割的简单基线ECCV 2022代码
OpenSeg: 使用图像级标签扩展开放词汇图像分割ECCV 2022代码
Fusioner: 使用冻结的视觉-语言模型进行开放词汇语义分割BMVC 2022代码
OVSeg: 使用蒙版调整的CLIP进行开放词汇语义分割CVPR 2023代码
ZegCLIP: 适应CLIP进行零样本语义分割CVPR 2023代码
CLIP也是一种高效的分割器:一种文本驱动的弱监督语义分割方法CVPR 2023代码
FreeSeg: 统一、通用和开放词汇的图像分割CVPR 2023代码
Mask-free OVIS: 无需手动蒙版注释的开放词汇实例分割CVPR 2023代码
在没有人为标签的情况下探索开放词汇语义分割arXiv 2023-
OpenVIS: 开放词汇视频实例分割arXiv 2023-
Segment Anything 是一种用于弱监督语义分割的优秀伪标签生成器arXiv 2023-
使用 Segment Anything Model (SAM) 增强伪标签进行弱监督语义分割arXiv 2023代码
即插即用,无密集标签:从视觉-语言模型中提取开放词汇语义分割arXiv 2023-
SegPrompt: 通过类别级别的提示学习提升开放世界分割ICCV 2023代码
ICPC: 使用对比学习进行实例条件提示的语义分割arXiv 2023-
卷积死得很难:使用单一冻结卷积CLIP进行开放词汇分割arXiv 2023代码
即插即用,无密集标签:从视觉-语言模型中提取开放词汇语义分割arXiv 2023-

知识蒸馏用于其他任务

论文发表年份代码/项目
控制视觉-语言模型用于通用图像修复arXiv 2023代码

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多