whisper-small-fa

whisper-small-fa 项目介绍

项目概述

whisper-small-fa 是在 OpenAI 的 whisper-small 模型基础上进行微调后的版本，该微调模型训练使用了 Common Voice 第17版数据集中的波斯语数据 (fa 配置)。在模型的评估测试集中，whisper-small-fa 模型取得了 35.4973 的词错误率 (WER)。该模型适用于自动语音识别任务，能够从音频中转换和识别语音内容。

数据集和评估指标

数据集

whisper-small-fa 所采用的数据集为 Common Voice Version 17.0，语言为波斯语，数据集类型为 common_voice_17_0。模型的性能通过在测试集上的表现进行评估。

评估指标

该项目使用词错误率(WER)作为主要的评估指标。WER 值为 35.4973，这意味着模型在识别测试集中词的错误率为约35.5%。

模型训练

训练超参数

在训练模型的过程中，使用了一下超参数：

学习率 (learning_rate): 1e-05
训练批次大小 (train_batch_size): 16
验证批次大小 (eval_batch_size): 16
随机种子 (seed): 42
优化器 (optimizer): Adam，参数为 betas=(0.9,0.999)，epsilon=1e-08
学习率调度器类型 (lr_scheduler_type): 线性
学习率预热步数 (lr_scheduler_warmup_steps): 500
训练步骤 (training_steps): 100000
混合精度训练 (mixed_precision_training): Native AMP

训练结果

训练过程中，模型在不同训练步数下的损失和词错误率 (WER) 变化情况如下表所示：

训练损失	训练轮次	训练步数	验证损失	WER
0.0193	8.1103	20000	0.5349	36.7125
0.0046	16.2206	40000	0.6839	36.0033
0.0018	24.3309	60000	0.7936	36.2543
0.0003	32.4412	80000	0.8729	35.9406
0.0	40.5515	100000	0.9258	35.4973