wav2vec2-large-xlsr-53-chinese-zh-cn

项目介绍：wav2vec2-large-xlsr-53-chinese-zh-cn

项目概述

wav2vec2-large-xlsr-53-chinese-zh-cn项目由Jonatas Grosman开发，旨在通过一个大型的XLSR（跨语言语音识别）模型协助完成中文的自动语音识别任务。该项目基于Facebook的wav2vec2模型进行微调，充分利用了中文语料库，如Common Voice 6.1、CSS10和ST-CMDS。该模型专为识别中文普通话语音而设计，使用时要求语音输入采样率为16kHz。

数据集和测评指标

数据集：项目使用了Common Voice的数据集进行模型训练和测试。Common Voice是一个多语言的开源语音数据集，其中zh-CN部分专门用于中文普通话识别。
测评指标：项目采用了词错误率（WER）和字符错误率（CER）作为主要测评指标。在测试数据上的WER为82.37%，CER为19.03%。

模型特点与优势

wav2vec2-large-xlsr-53-chinese-zh-cn模型在处理中文语音数据上表现优异，能够直接使用无需语言模型的支持进行语音转录。得益于OVHcloud提供的GPU支持，模型的训练速度和精度均有保证。

模型使用指南

使用该模型进行语音识别非常简单，可以直接利用HuggingSound库。用户只需提供待识别的音频文件路径，模型即可返回音频的转录文本。以下是一个简单的使用示例：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

模型评估

模型的评估通过加载测试数据集，并对其进行预处理和预测实现。通过对测试结果进行分析，用户可以通过对比参考文本和预测文本来校正模型误差。下表展示了不同模型在相同数据上的WER和CER测试结果：

Model	WER	CER
jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn	82.37%	19.03%
ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt	84.01%	20.95%

项目代码与许可

该项目的训练脚本和相关代码托管在GitHub上，并根据Apache-2.0许可发布，用户可以按照许可要求对模型进行尝试使用或二次开发。

引用

如果您在相关研究中使用了此项目，请使用以下引用方式：

@misc{grosman2021xlsr53-large-chinese,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {C}hinese},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn}},
  year={2021}
}