UltraFastBERT: 大语言模型的指数级加速突破

UltraFastBERT

UltraFastBERT:大语言模型的革命性加速技术

在人工智能快速发展的今天,大语言模型(Large Language Models, LLMs)以其强大的能力成为了研究热点。然而,这些模型庞大的参数量也带来了巨大的计算开销,制约了它们的广泛应用。近期,来自苏黎世联邦理工学院(ETH Zurich)的研究人员开发出了一项名为UltraFastBERT的创新技术,有望为大语言模型的加速带来重大突破。

UltraFastBERT的核心思想

UltraFastBERT的核心思想源于一个重要发现:在大语言模型的推理过程中,前馈层(feedforward layers)占据了大部分参数,但在实际计算时只使用了其中一小部分神经元。基于这一洞察,研究人员提出了使用快速前馈网络(Fast Feedforward Networks, FFFs)替代传统前馈网络的方案。

这种新型网络结构的最大特点是:

在推理阶段仅使用0.3%的可用神经元,即每层4095个神经元中只激活12个。
通过精心设计的条件矩阵乘法(Conditional Matrix Multiplication, CMM)实现高效计算。
保持与同等规模BERT模型相当的性能表现。

技术原理与实现

UltraFastBERT在架构上基于crammedBERT,但将中间层的transformer编码器中的前馈网络替换为快速前馈网络。这种替换带来了几个关键的变化:

统一了叶节点和非叶节点,使用GeLu激活函数,并移除了输出偏置。
允许多个快速前馈网络树并行计算,通过求和得到中间输出层。

在训练方面,UltraFastBERT沿用了crammedBERT的训练流程,包括在预训练时禁用dropout,使用1-cycle三角学习率调度等。模型经过5个epoch的微调,以在GLUE基准测试等多项任务上优化性能。

UltraFastBERT的快速前馈网络算法

图1: UltraFastBERT的快速前馈网络算法伪代码

性能评估与比较

UltraFastBERT在多个方面展现出了卓越的性能:

微调效果:在GLUE开发测试集上,UltraFastBERT保持了原始BERT 96%的预测性能。如果不考虑CoLa任务,这一比例甚至可以达到98.6%。
推理速度:在使用相同的线性代数运算原语的"公平比较"中,UltraFastBERT的快速前馈网络实现了显著的速度提升:
- 在Level 1实现中,比最快的前馈实现快48倍。
- 在Level 2实现中,速度提升达到了78倍。

UltraFastBERT与BERT在GLUE任务上的性能比较

图2: UltraFastBERT与BERT在GLUE任务上的性能比较

UltraFastBERT的意义与展望

UltraFastBERT的成功不仅证明了大语言模型可以通过更高效的结构设计来大幅提升推理速度,还为未来更大规模模型的优化指明了方向。以GPT-3为例,如果应用UltraFastBERT的技术,理论上可以将每个transformer层中超过49,100个神经元的前馈网络替换为只需16个神经元的快速前馈网络,潜在的加速效果令人期待。

这项技术的出现有望在以下几个方面产生深远影响: