whisper-timestamped

项目介绍：whisper-timestamped

项目概述

whisper-timestamped 是一个基于 OpenAI Whisper 模型的多语言自动语音识别工具，能够在语音识别过程中生成每个词的时间戳和置信度评分。它的设计解决了原版 Whisper 模型无法预测单词时间戳的问题，通过对交叉注意力权重应用动态时间规整（DTW）技术，提供了更精确的语音片段估计以及为每个单词和片段分配置信度评分。

项目的背景

Whisper 模型由 OpenAI 开发，作为多语言和稳健的语音识别模型，其可以在多种语言中达到最先进的语音识别效果。然而，这些模型本身只提供了片段级别的时间戳（多数情况下精确到1秒），而无法生成单词级别的时间戳。whisper-timestamped 通过改进时间戳估计及信心评分，使其不仅提升了识别精度，而且保持对内存使用的有效管理。

特点与优势

精准的时间戳：利用动态时间规整方法增强了时间戳的准确性，不需要额外的推断步骤，可以在每个语音片段被解码后实时进行词对齐。
内存优化：处理长文件时，whisper-timestamped 与使用 Whisper 模型相比，额外的内存需求非常小。
语言识别：在未指定语言的情况下，系统会提供输出的语言概率。
语音活动检测（VAD）：在应用 Whisper 模型之前运行，以避免由于训练数据错误导致的“幻觉”。

安装方法

初始安装

需要 Python 3.7 或更高版本（推荐至少 3.9）以及 ffmpeg。
使用 pip 安装：
```
pip3 install whisper-timestamped
```

使用源码安装：

git clone https://github.com/linto-ai/whisper-timestamped
cd whisper-timestamped/
python3 setup.py install

轻量安装（CPU）

如果没有 GPU，可以在安装 whisper-timestamped 之前安装 Torch 的轻量版本：

pip3 install torch==1.13.1+cpu torchaudio==0.13.1+cpu -f https://download.pytorch.org/whl/torch_stable.html

使用方法

Python 脚本

可以使用 whisper_timestamped.transcribe() 函数进行音频转录，返回的结果将包含每个单词的开始和结束位置。同时，默认的解码选项不同，以更有效的方式进行解码。

import whisper_timestamped as whisper

audio = whisper.load_audio("AUDIO.wav")
model = whisper.load_model("tiny", device="cpu")
result = whisper.transcribe(model, audio, language="fr")

import json
print(json.dumps(result, indent = 2, ensure_ascii = False))

命令行界面

我们可以使用命令行调用 whisper_timestamped，适用于大多数使用场景。

whisper_timestamped audio1.flac audio2.mp3 --model tiny --output_dir .

其他功能

whisper-timestamped 还提供了一些实用功能，如 remove_non_speech 函数可以通过语音活动检测来移除音频中的非语音片段，load_model 函数可以从指定的路径或名称加载模型。

提高转录结果的选项

可以采用一些选项提高结果的准确性，例如启用语音活动检测可以有效避免无声段造成的误识，从而优化转录效果。

results = whisper_timestamped.transcribe(model, audio, vad=True, ...)

结语

whisper-timestamped 通过精确的时间戳和信心评分增强了 OpenAI Whisper 模型的语音识别能力，提供了更强大和便捷的多语言音频转录工具。该项目不仅适用于学术研究，还可以广泛应用于需要精准语音识别的行业与应用程序中。如果您在研究中使用本工具，请务必引用相关的文献信息以示感谢。