faster-whisper-large-v3-turbo-ct2

项目介绍

这个项目名为"faster-whisper-large-v3-turbo-ct2"，它是一个基于CTranslate2模型格式的Whisper大型语音识别模型。该项目将原始的"deepdml/whisper-large-v3-turbo"模型转换为CTranslate2格式，以实现更快速和高效的语音识别。

主要特点

多语言支持：该模型支持超过100种语言，包括英语、中文、德语、西班牙语、俄语等多种主流语言，以及一些较少使用的语言。
高性能：通过使用CTranslate2格式，该模型能够提供更快的推理速度和更高的效率。
易于使用：项目提供了简单的Python接口，使用户能够轻松地进行语音转录。
灵活性：用户可以根据需要调整计算类型，以在性能和精度之间找到平衡。

使用方法

使用该模型进行语音识别非常简单。以下是一个基本的Python代码示例：

from faster_whisper import WhisperModel

model = WhisperModel("deepdml/faster-whisper-large-v3-turbo-ct2")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

这段代码将加载模型，对指定的音频文件进行转录，并打印出每个语音片段的开始时间、结束时间和转录文本。

技术细节

该模型是使用以下命令从原始模型转换而来的：

ct2-transformers-converter --model deepdml/whisper-large-v3-turbo --output_dir faster-whisper-large-v3-turbo \
    --copy_files tokenizer.json preprocessor_config.json --quantization float16

值得注意的是，模型权重以FP16格式保存。用户可以在加载模型时通过CTranslate2的compute_type选项来更改这种类型，以满足不同的需求。