matmulfreellm

项目介绍

MatMul-Free LM 是一种新型的语言模型架构，它的创新之处在于不再需要矩阵乘法（MatMul）操作。该项目的代码库与🤗 Transformers库兼容，使得用户可以更容易地集成和使用这种高效的语言模型。

项目背景

传统的语言模型普遍依赖于大量的矩阵乘法，这在某些计算环境下可能会造成计算瓶颈。MatMul-Free LM 则通过消除这些操作，提供了一种高效而创新的替代方案。

项目特色

高效的计算架构：通过引入更高效的三值权重，MatMul-Free LM 能够比现有的方法更好地利用计算资源，不仅在理论上优化了计算效率，也实践中得到了验证。
扩展性强：透过与🤗 Transformers库的兼容性，用户能够直接在现有的框架中使用这套新模型。
多样化的模型配置：项目提供了多个预训练模型，从370M到2.7B参数不等，满足不同需求。

规模定律

在规模定律的评估中，他们比较了拥有370M、1.3B和2.7B参数模型在Transformer++和MatMul-Free LM之间的表现。通过公平的对比，MatMul-Free LM模型在某些层使用更高效的三值权重，展现出一种更陡峭的下滑曲线，意味着该架构更能有效利用额外的计算资源以提升性能。

安装指南

要运行该项目，需要满足以下环境需求：

PyTorch >= 2.0
Triton >= 2.2
Einops

可以通过以下命令安装：

pip install -U git+https://github.com/ridgerchu/matmulfreellm

使用说明

预训练模型库

项目提供了多种预训练模型：

模型大小	层数	隐藏层维度	训练Token数量
370M	24	1024	15B
1.3B	24	2048	100B
2.7B	32	2560	100B

模型初始化

该项目提供与🤗 Transformers库兼容的模型实现。下面是如何通过默认配置初始化模型的示例：

from mmfreelm.models import HGRNBitConfig
from transformers import AutoModel

config = HGRNBitConfig()
AutoModel.from_config(config)

文本生成

在成功完成模型预训练后，可以利用🤗的文本生成API进行文本生成。下面是一个生成文本的代码示例：

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
import mmfreelm
from transformers import AutoModelForCausalLM, AutoTokenizer

name = ''
tokenizer = AutoTokenizer.from_pretrained(name)
model = AutoModelForCausalLM.from_pretrained(name).cuda().half()
input_prompt = "In a shocking finding, scientist discovered a herd of unicorns living in a remote, "
input_ids = tokenizer(input_prompt, return_tensors="pt").input_ids.cuda()
outputs = model.generate(input_ids, max_length=32,  do_sample=True, top_p=0.4, temperature=0.6)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[0])

引用

若在您的工作中使用到该项目，请引用我们的预印本：

@article{zhu2024scalable,
title={Scalable MatMul-free Language Modeling},
author={Zhu, Rui-Jie and Zhang, Yu and Sifferman, Ethan and Sheaves, Tyler and Wang, Yiqiao and Richmond, Dustin and Zhou, Peng and Eshraghian, Jason K},
journal={arXiv preprint arXiv:2406.02528},
year={2024}
}

以上就是有关MatMul-Free LM项目的详细介绍。这是一个旨在改进语言模型计算效率的创新性项目，期待能在各类应用中展示其潜力。