wav2vec2-xlsr-1b-finnish-lm-v2

项目介绍：wav2vec2-xlsr-1b-finnish-lm-v2

项目背景

wav2vec2-xlsr-1b-finnish-lm-v2项目是一个面向芬兰语自动语音识别（ASR）的深度学习模型，专门为芬兰语的语音识别任务进行了微调。此项目基于Facebook AI的多语言大规模预训练模型Wav2Vec2 XLS-R，已接受超过43.6万小时的无标签语音数据预训练，覆盖128种语言。该模型使用了Wav2Vec 2.0的目标函数，有助于提高语音识别的精确性。

适用场景

该模型主要用于芬兰语的自动语音识别任务，即将语音转换为文字。它适合用于短语音片段（最长约20秒）认知效果较好。对于较长的语音片段，可以尝试使用音频分块方法来解决内存不足的问题。鉴于其主要受训于芬兰国会的数据集，该模型可能对日常生活中的口语或方言的通用性稍差。

使用方法

要使用此模型，可以参考其代码库中包含的示例笔记本，其中详细介绍了如何应用该模型进行芬兰语的语音识别任务。

模型特点和限制

模型特点

语言支持：专为芬兰语语音识别任务进行优化。
数据训练：模型经过275.6小时的芬兰语语音转录数据微调。
需注意的偏差：由于主要使用数据为芬兰国会录音，该模型可能对儿童和女性的语音识别能力不如成人男性。此外，解码时所用的KenLM语言模型主要由音频转录和部分芬兰维基百科文本训练而成，表示正式书面语的能力较强，对日常口语适应性可能有限。

模型限制

模型主要对短音频表现良好，长音频可能会出现性能问题。
主要数据源自正式场合，例如议会演讲，会对日常方言及不同性别人群的语音识别产生影响。

训练数据和方法

该模型微调训练的数据来源于多个数据集合：

数据集	小时数	占比
Common Voice 7.0 芬兰语	9.70 h	3.52 %
芬兰议会会话	228.00 h	82.73 %
其他资源	37.9 h	13.75 %

训练过程中使用了包括Hugging Face提供的训练脚本，且使用了KenLM语言模型配合语音模型的解码阶段。

训练结果

在训练过程中，该模型参数不断优化，其中关键的训练参数包括：

学习率：5e-05
训练批次大小：32
优化器：8-bit Adam

模型评估

该模型在Common Voice 7.0、Common Voice 9.0和FLEURS ASR三个评估数据集上进行测试。其中在Common Voice 7.0测试集上，带有KenLM语言模型时字错率（WER）为4.09，字符错率（CER）为0.88，而不使用KenLM语言模型时字错率为9.73，字符错率为1.65。这表明该模型在使用和不使用语言模型的情况下，语音识别性能都有很大提升。

通过上述介绍，相信大家对wav2vec2-xlsr-1b-finnish-lm-v2项目有了一个全面的了解，可以在需要进行芬兰语语音识别时考虑使用这个经过优化的模型。