基于XLS-R的挪威语Bokmål语音识别模型实现高精度转录
nb-wav2vec2-1b-bokmaal是一个基于XLS-R的挪威语Bokmål语音识别模型,在NPSC测试集上达到6.33%词错误率和2.48%字符错误率。该模型由NbAiLab团队使用挪威议会语音语料库(NPSC)训练,并开源了完整代码和参数配置,便于研究者复现和优化。模型在Hugging Face平台发布,支持挪威语自动语音识别任务。
nb-wav2vec2-1b-bokmaal是一个用于挪威语博克马尔语(Bokmål)的自动语音识别(ASR)模型。这个模型是在Facebook/Meta的XLS-R特征提取器的基础上微调而来的。经过微调后,该模型在测试集上取得了优异的成绩:
没有使用语言模型时,WER为0.0738,CER为0.0263。
这是由NbAiLab团队在Hugging Face举办的Robust Speech Event活动中开发的几个Wav2Vec模型之一。
在所有开发的模型中,这个1B参数的博克马尔语模型表现最佳,WER达到了6.33%。
模型使用了挪威议会语音语料库(NPSC)进行训练,该语料库已被转换为Hugging Face数据集格式。
开发团队公开了所有代码,以便挪威NLP社区能够在此基础上开发更好的ASR模型。
使用普通GPU,按照说明可以在一天内训练出自己的ASR系统。
训练过程参考了Hugging Face提供的指南。
开发团队提供了run.sh和run_speech_recognition_ctc.py文件,可以用于复现结果。
添加了5-gram语言模型来提升性能,可以使用挪威巨型语料库(NCC)构建。
详细的训练参数已在项目页面列出,包括学习率、批次大小、dropout率等。
使用这些设置,在普通GPU上训练可能需要3-4天时间。
为挪威语自动语音识别提供了新的基准。
可作为进一步研究和改进挪威语ASR的基础。
为挪威NLP社区提供了宝贵的资源和起点。
有助于提高挪威语音技术的整体水平。
为其他语言的ASR模型开发提供了参考。
通过这个项目,NbAiLab团队大大推进了挪威语自动语音识别技术的发展,为未来更多创新奠定了基础。
AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。
全能AI智能助手,随时解答生活与工作的多样问题