Minerva-3B-base-v1.0

Minerva-3B-base-v1.0 项目介绍

项目背景

Minerva-3B-base-v1.0 是由意大利 Sapienza NLP 团队在 Future Artificial Intelligence Research (FAIR) 和 CINECA 的协作下开发的语言模型。这款模型是 Minerva 家族的一部分，专注于意大利语和英语的研究与应用。Minerva 是意大利市场上首个从零预训练且开放的数据与模型的大型语言模型（LLM）。在预训练中，它将约一半的数据用于意大利文文本处理，确保模型对这两种语言的良好掌握。

模型概述

Minerva-3B-base-v1.0 是一款拥有30亿参数的大型语言模型，它在 6600 亿个标记（意大利语和英语各占一半）上进行训练。该模型属于 Minerva LLM 家族的一员，其他模型还包括 Minerva-350M-base-v1.0 和 Minerva-1B-base-v1.0。

模型偏见与限制

Minerva-3B-base-v1.0 作为基础模型，并未经过特别的对齐机制，因此可能存在一定的偏见与限制。包括：

可能过度呈现某些观点而不足以代表另一些观点。
可能包含刻板印象或个人信息。
生成可能具有种族、性别歧视或其他不当内容。
可能在某些历史事实或信息上出现错误。
生成出的内容可能会不相关或重复。

这一模型在训练过程中可能会反映和放大训练数据中的偏见点。在这方面的更多信息可以查看相关研究文献。

使用方法

在 Hugging Face 平台上，可以通过 transformers 库轻松使用 Minerva-3B-base-v1.0。以下是一个简单的使用示例代码：

import transformers
import torch

model_id = "sapienzanlp/Minerva-3B-base-v1.0"

# 初始化生成管道
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 模型输入文本
input_text = "La capitale dell'Italia è"

# 计算输出
output = pipeline(
  input_text,
  max_new_tokens=128,
)

# 输出示例
# [{'generated_text': "La capitale dell'Italia è la città di Roma, che si trova a [...]"}]