OLMo-7B-0724-hf

项目介绍：OLMo-7B-0724-hf

项目背景

OLMo是由Allen Institute for AI（AI2）开发的一系列开放语言模型，目标是推动语言模型科学的研究。这个项目中的模型基于Dolma数据集进行训练。项目团队发布了所有相关的代码、训练结果以及详细的训练细节。

模型详情

最新发布的模型为OLMo 7B July 2024版本，规格如下：

参数量： 7B（70亿）
训练标记数： 2.75万亿
层数： 32
隐藏层大小： 4096
注意力头数： 32
上下文长度： 4096

模型采用Apache 2.0许可发布，主要用于英语自然语言处理任务。

技术支持与合作

开发该项目的团队包括Allen Institute for AI（AI2），并获得多家机构的支持，包括Databricks、哈佛大学Kempner Institute、AMD、CSC（Lumi超级计算机）以及华盛顿大学（UW）等。

项目资源

项目资源丰富，包括多种可用的代码库和详细的文档支持用户进行模型的训练、推理和微调。相关资源可以在以下链接中找到：

项目主页： OLMo 项目页面
核心代码库： GitHub 资源库
评估代码： GitHub 评估库
进一步微调代码： GitHub 微调库
相关论文： 论文链接
技术博客： 技术博客文章

模型使用

推理

用户可以使用HuggingFace库进行推理，只需按照以下代码进行初始化即可：

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B-0724-hf")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-7B-0724-hf")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])