wav2vec2-large-xlsr-53-arabic

项目介绍

这是一个名为"wav2vec2-large-xlsr-53-arabic"的项目，专门用于阿拉伯语语音识别。该项目是基于Facebook的wav2vec2-large-xlsr-53模型进行微调而来，旨在提供高质量的阿拉伯语语音转文本服务。

模型特点

该模型具有以下特点：

基于大规模预训练模型：使用Facebook的wav2vec2-large-xlsr-53作为基础模型，这是一个在53种语言上预训练的强大模型。
针对阿拉伯语优化：通过在Common Voice 6.1和Arabic Speech Corpus数据集上进行微调，使模型更好地适应阿拉伯语的特点。
性能优异：在测试集上，该模型的词错误率(WER)为39.59%，字符错误率(CER)为18.18%，优于同类其他模型。
易于使用：提供了简单的Python接口，可以轻松集成到各种应用中。
开源可用：该模型采用Apache 2.0许可证，可以自由使用和修改。

使用方法

使用这个模型非常简单。开发者可以通过HuggingSound库或者自定义脚本来调用模型。以下是两种使用方式的示例：

使用HuggingSound库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-arabic")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

使用自定义脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-arabic")
model = Wav2Vec2ForCTC.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-arabic")

# 处理音频数据
speech_array, sampling_rate = librosa.load("/path/to/audio.wav", sr=16_000)
inputs = processor(speech_array, sampling_rate=16_000, return_tensors="pt", padding=True)

# 进行预测
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentence = processor.batch_decode(predicted_ids)

print(predicted_sentence)