parakeet-rnnt-1.1b

parakeet-rnnt-1.1b项目介绍

项目概述

parakeet-rnnt-1.1b是一个由NVIDIA NeMo和Suno.ai团队共同开发的自动语音识别(ASR)模型。它是FastConformer Transducer的超大规模版本,拥有约11亿参数。该模型能够将语音转录为小写英文字母,是目前最先进的英语ASR模型之一。

模型架构

该模型采用了FastConformer架构,这是Conformer模型的优化版本,具有8倍深度可分离卷积下采样。它使用Transducer解码器(RNNT)损失进行多任务训练设置。FastConformer的详细信息可以在NeMo文档中找到。

训练过程

模型使用NVIDIA NeMo工具包进行训练,经过数百个epoch的训练。训练数据集包括NVIDIA NeMo和Suno团队收集和准备的64,000小时英语语音数据,其中包括40,000小时的私有数据集和24,000小时的公开数据集。公开数据集包括Librispeech、Fisher Corpus、Switchboard-1等多个知名语音数据集。

模型性能

该模型在多个公开测试集上进行了评估,使用词错误率(WER)作为评估指标。在不同测试集上的表现如下:

AMI会议测试集: 17.10% WER
Earnings-22: 14.11% WER
GigaSpeech: 9.96% WER
LibriSpeech测试集(clean): 1.46% WER
SPGI Speech: 3.11% WER
TEDLIUM-v3: 3.92% WER
Vox Populi: 5.39% WER
Mozilla Common Voice 9.0: 5.79% WER

这些结果都是在没有使用外部语言模型的情况下,通过贪婪解码得到的。

使用方法

用户可以通过NVIDIA NeMo工具包轻松使用该模型。安装NeMo后,只需几行代码就可以加载预训练模型并进行推理或微调:

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-1.1b")

模型接受16000 Hz单声道音频(wav文件)作为输入,输出为对应的文本转录结果。

部署与应用

虽然该模型目前还不被NVIDIA Riva支持,但用户可以关注Riva支持的模型列表以获取最新信息。NVIDIA Riva是一个加速的语音AI SDK,可部署在本地、各种云环境、混合环境、边缘设备和嵌入式设备上。

许可证

该模型使用CC-BY-4.0许可证。用户在下载和使用模型时,需要接受CC-BY-4.0许可证的条款和条件。

总的来说,parakeet-rnnt-1.1b是一个强大的英语语音识别模型,具有出色的性能和广泛的应用潜力。它为研究人员和开发者提供了一个可靠的工具,用于各种语音识别任务。