granite-7b-base

Granite-7b-base项目介绍

项目概述

Granite-7b-base是由IBM研究团队开发的一个大型语言模型。这个模型是IBM Granite系列的一部分，采用Apache-2.0的开源许可协议，允许个人和商业用途。Granite-7b-base是一款预训练的基础模型，其架构基于Meta公司推出的Llama2-7B变体，训练时使用了1百万批次大小和2万亿个tokens。这个模型数据集的上下文长度为4000个tokens，并且使用Llama2的分词器。

开发背景

IBM公司一向致力于开源创新，Granite-7b-base正是这种承诺的体现。这个模型是人为调试过的，由于使用IBM特定的数据，预训练过程遵循透明化原则，向公众开放数据源、样本比例等信息。这一切共同促成了Granite-7b-base成为Meta Llama-2-7B的开放参考实现，推动开源创新向前发展。

训练数据

模型的训练依赖于大量多样的数据集，这些数据集总共包含了2万亿个tokens。为了确保数据分布的合理性，Granite-7b-base的训练数据比例设计尽量符合以往相关研究公布的分布。以下是该项目使用的数据集和其对应的比例：

Common Crawl: 占77%，来自2021至2023年的网络爬虫数据快照。
Github_Clean: 占5.5%，包含各种编程语言的代码数据。
Wikipedia and Wikimedia: 占2%，涵盖八个不同的Wiki项目。
USPTO: 占5%，美国专利数据（不包括设计专利）。
PubMed Central: 占1.75%，涉及生物医学和生命科学的论文。
arXiv: 占2.5%，科学论文预印本。
StackExchange: 占1%，用户提交的问答内容。
PG19: 占0.25%，免费电子书数据集。
Webhose: 占5%，未经结构化的网络内容。

评估结果

Granite-7b-base经过各种评估测试，以量化其性能和准确性。以下是该模型与Llama2-7B的评估对比结果：

MMLU（零样本）：0.43（Granite-7b-base） vs 0.41（Llama2-7B）
MMLU（五样本加权平均）：0.50 vs 0.47
其他项目如Boolean、Copa等在不同维度评估的分数显示，Granite-7b-base整体性能与Llama2-7B相当，甚至在某些测试中表现稍优。

潜在偏见、风险与限制

作为一个基础模型，Granite-7b-base尚未进行安全校准，也未结合强化学习技术进行微调。因此模型可能输出问题性内容，其结果可能存在偏见或误导性，在做出重要决策或处理敏感信息时，仅依靠该模型是不可取的。此外，因其相对较小的设计和记忆容量，Granite-7b-base在虚构内容生成方面可能更加容易出现所谓的“幻觉”，这是当前研究的一个活跃领域。

Granite-7b-base代表了一种开放的科技进步，但也提醒我们在使用大型语言模型时要谨慎对待其可能带来的偏见与风险。