OmniFusion: 突破性的多模态AI模型

OmniFusion:开创多模态AI新纪元

在人工智能快速发展的今天,多模态AI模型正成为研究的热点。其中,OmniFusion作为一款突破性的多模态AI模型,不仅能够处理文本,还可以理解和生成图像等多种模态信息,展现出强大的潜力。本文将全面介绍OmniFusion的架构设计、训练过程、性能表现以及未来发展方向,带领读者深入了解这一革命性的AI模型。

OmniFusion的架构设计

OmniFusion采用了精心设计的架构,旨在实现多模态信息的有效融合和处理。其核心组成包括:

开源语言模型Mistral-7B
视觉编码器CLIP-ViT-L(部分版本使用双编码器CLIP-ViT-L和Dino V2)
适配器(Adapter)模块

其中,适配器是OmniFusion最关键的组件之一。它采用单层四头注意力的Transformer结构,能够有效地将视觉编码器的输出映射到语言模型可理解的文本嵌入空间。这种设计使得模型可以无缝地融合不同模态的信息。

此外,OmniFusion还引入了可学习的特殊标记,用于标记视觉数据在文本序列中的开始和结束位置。这进一步增强了模型处理多模态输入的能力。

OmniFusion架构图

训练过程:两阶段策略

OmniFusion的训练采用了精心设计的两阶段策略:

第一阶段:预训练适配器在这个阶段,模型主要在图像描述任务(如LAION、CC-4M等数据集)上进行训练。这一步骤的目的是让适配器学会将视觉嵌入映射到语言模型的文本空间。
第二阶段:微调Mistral语言模型当适配器初步掌握了视觉到文本的映射后,研究人员解冻Mistral语言模型并进行微调。这一步骤旨在提高模型对对话格式的理解和处理复杂查询的能力。

训练数据集涵盖了多种任务和语言:

任务类型	数据集来源	样本数量
图像描述	ShareGPT4V	100K
视觉问答	COCO, SAM-9K	20K, 9K
网页问答	WebData	1.5K
OCR问答	TextVQA, OCRVQA	120K
对话	LLaVA-v1.5-665K, OCRVQA	665K
文档视觉问答	专有数据(俄语)	20K
纯文本指令微调	专有数据(俄语), Alpaca(英语)	10K

这种多样化的数据集组合确保了OmniFusion在各种场景下都能表现出色。

性能表现:全面超越现有模型

OmniFusion在多项基准测试中展现出卓越的性能,超越了许多现有的多模态SOTA模型。以下是OmniFusion-1.1(基于GigaChat LLM)在各项指标上的表现:

OmniFusion-1.1性能雷达图

从图中可以看出,OmniFusion-1.1在多个维度上都取得了优异的成绩。特别是在TextVQA等分类基准测试中,OmniFusion表现尤为出色。

对于使用Mistral作为基础语言模型的OmniFusion-1.1版本,其在不同任务上的具体表现如下:

模型	textvqa	scienceqa	pope	gqa	ok_vqa
OmniFusion-1.1 (单编码器, Mistral)	0.4893	0.6802	0.7818	0.4600	0.5187
OmniFusion-1.1 (双编码器, Mistral)	0.4755	0.6732	0.8153	0.4761	0.5317