faster-whisper-base.en

faster-whisper-base.en项目介绍

faster-whisper-base.en是一个基于OpenAI Whisper模型的自动语音识别项目。该项目将原始的openai/whisper-base.en模型转换为CTranslate2格式，以提供更快速、更高效的语音转文本功能。

项目背景

OpenAI的Whisper是一个强大的语音识别模型，但在某些应用场景中可能需要更快的处理速度。faster-whisper-base.en项目通过使用CTranslate2框架，旨在提高Whisper模型的推理速度，同时保持其优秀的识别性能。

主要特点

基于Whisper base.en模型：继承了原始模型的高准确度和稳定性。
CTranslate2格式：使用高效的CTranslate2框架，提升了模型的推理速度。
支持英语：专门针对英语语音识别进行了优化。
开源可用：采用MIT许可证，可以自由使用和修改。

使用方法

使用faster-whisper-base.en模型非常简单。用户可以通过Python代码轻松实现语音转文本功能。以下是一个简单的示例：

from faster_whisper import WhisperModel

model = WhisperModel("base.en")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

这段代码会将音频文件"audio.mp3"转换为文本，并按时间段输出识别结果。

技术细节

该项目使用了以下命令将原始Whisper模型转换为CTranslate2格式：

ct2-transformers-converter --model openai/whisper-base.en --output_dir faster-whisper-base.en \
    --copy_files tokenizer.json --quantization float16

值得注意的是，模型权重以FP16格式保存，这有助于减小模型大小并提高推理速度。用户可以在加载模型时通过CTranslate2的compute_type选项来更改计算精度。