OLMo-7B

OLMo-7B 项目简介

OLMo-7B是一系列开放语言模型中的一员，由AI领域的知名机构艾伦研究所（AI2）开发。该项目旨在推进语言模型的科学研究。OLMo-7B等模型使用来自Dolma数据集进行训练，所有代码、模型检查点、日志（即将上线）及训练细节均对外开放。

模型详情

OLMo系列核心模型具有以下特征：

大小	训练词元数	层数	隐藏层大小	注意力头数	上下文长度
OLMo 1B	3 trillion	16	2048	16	2048
OLMo 7B	2.5 trillion	32	4096	32	2048
OLMo 7B Twin 2T	2 trillion	32	4096	32	2048

训练修订

我们为这些模型发布了许多检查点，每1000个训练步骤一发布。在7B模型中，我们重点关注以下四个版本：

名称	仓库链接	模型修订	词元数	说明
OLMo 7B	allenai/OLMo-7B	`main`	2.5T	基础模型
OLMo 7B (未退火)	链接	step556000-tokens2460B	2.5T	学习率未降至0
OLMo 7B-2T	链接	step452000-tokens2000B	2T	2T词元的检查点
OLMo-7B-Twin-2T	链接	`main`	2T	在不同硬件上的双版本

模型描述

OLMo-7B是由艾伦研究所为AI（AI2）开发，得到Databricks、哈佛大学Kempner研究所、AMD、CSC（Lumi超级计算机）、华盛顿大学等支持的自回归Transformer风格语言模型。该模型主要用于英语自然语言处理任务，以Apache 2.0许可证下发布。

用途

推理

在安装相关软件包后，用户可以轻松进行推理，并利用量化技术加速推理过程。该模型适合快速语言建模任务，具备响应自然语言生成的能力。

微调

用户可根据需求对模型进行微调。微调可以从最终检查点或中间检查点进行，提供多种微调方案以满足不同实验需求。

评估

OLMo 7B在多项基准任务上的表现与一些知名模型如Llama 7B、Falcon 7B及MPT 7B相比，展现了不俗的性能表现，尤其在任务Copa中取得了优异的结果。

环境影响

OLMo 7B在训练过程中使用了LUMI超级计算机的MI250X GPU和MosaicML的A100-40GB GPU，并对模型的碳排放进行了详细记录，致力于最小化环境影响。

偏见、风险与限制

与其他模型类似，未经安全过滤的基础语言模型可能容易生成敏感和有害内容。因此，建议用户在使用时考虑潜在风险，并对生成内容进行核实。此外，许多生成的“事实”可能并不准确，需要加以验证。

引用

如果您使用了OLMo模型，我们鼓励您按以下方式引用：

@article{Groeneveld2023OLMo,
  title={OLMo: Accelerating the Science of Language Models},
  author={Groeneveld, Dirk and Beltagy, Iz et al.},
  journal={Preprint},
  year={2024}
}