Gemini

Gemini 项目介绍

项目概述

Gemini 是一个开源的多模态模型，其目标是超越现有的 ChatGPT 它通过直接将文本、音频、图像和视频等多种输入模式输入到一个具有特殊解码器的 transformer 中来工作，从而生成文本或图像。这一体系结构与 Fuyu 模型有相似之处，但在此基础上扩大至多模态。不像传统的视觉 transformer 编码器，Gemini 将图像嵌入直接反馈到 transformer 中。

功能与技术特点

Gemini 的输入序列包括文本、音频、图像和视频，这些输入被转化为 token，并通过 transformer 进行处理，随后进行条件解码以生成图像输出。输入 token 可能由专门的模态 tokens（例如 [IMG]、<img>、[AUDIO]、<audio>）进行指示。Gemini 的一个组件 Codi 也使用条件生成，并利用这些 token 化输出。

为了有效地实现这一模型，团队计划首先专注于图像嵌入的整合，其后逐渐纳入音频和视频嵌入。

使用指南

Gemini 的使用非常灵活，支持文本、图像和音频的处理。以下是一些基本的使用说明：

Gemini Transformer 使用

可以通过如下代码初始化并应用模型：

import torch
from gemini_torch.model import Gemini

# 初始化模型
model = Gemini(
    num_tokens=50432,
    max_seq_len=4096,
    dim=1280,
    depth=16,
    dim_head=64,
    heads=12,
    use_abs_pos_emb=False,
    attn_flash=True,
    attn_kv_heads=2,
    qk_norm=True,
    attn_qk_norm=True,
    attn_qk_norm_dim_scale=True,
)

text = torch.randint(0, 50432, (1, 4096))
y = model(text)
print(y)

多模态使用

为了实现生产级别的使用，可以通过以下方式处理图像和音频：

import torch
from gemini_torch.model import Gemini

model = Gemini(
    num_tokens=10000,
    max_seq_len=1024,
    dim=320,
    depth=8,
    dim_head=32,
    heads=6,
    use_abs_pos_emb=False,
    attn_flash=True,
    attn_kv_heads=2,
    qk_norm=True,
    attn_qk_norm=True,
    attn_qk_norm_dim_scale=True,
    post_fusion_norm=True,
    post_modal_transform_norm=True,
)

text = torch.randint(0, 10000, (1, 1024))
img = torch.randn(1, 3, 64, 64)
audio = torch.randn(1, 32)
y, _ = model(text=text, img=img, audio=audio)
print(y)
print(y.shape)