Whisper Streaming: 将Whisper模型转化为实时语音转录系统

whisper_streaming

Whisper Streaming:实现实时语音转录的突破性技术

在自然语言处理领域,实时语音转录一直是一个具有挑战性的任务。OpenAI的Whisper模型虽然在语音识别和翻译方面表现出色,但并不是为实时转录而设计的。然而,一个名为Whisper Streaming的创新项目改变了这一现状,它成功地将Whisper转变为一个高效的实时转录系统。本文将深入探讨Whisper Streaming项目的各个方面,包括其背景、实现原理、安装使用方法以及性能评估等。

项目背景与概述

Whisper Streaming项目由Dominik Macháček、Raj Dabre和Ondřej Bojar于2023年提出。该项目的核心目标是将Whisper模型改造成一个能够进行实时语音转录和翻译的系统。研究团队在Whisper的基础上进行了创新,开发出了Whisper-Streaming实现。

Whisper-Streaming采用了本地一致性策略(local agreement policy)和自适应延迟机制,使得流式转录成为可能。根据研究结果,Whisper-Streaming在长篇未分段语音转录测试集上实现了高质量输出,平均延迟仅为3.3秒。此外,该系统还在多语言会议的实时转录服务中展现出了卓越的稳定性和实用性。

Whisper Streaming架构图

安装与配置

要使用Whisper Streaming,需要按照以下步骤进行安装和配置:

安装音频处理库:
```
pip install librosa soundfile
```
选择并安装Whisper后端。推荐使用支持GPU的faster-whisper:
```
pip install faster-whisper
```
安装语音活动控制器(可选但推荐):
```
pip install torch torchaudio
```
根据需要安装句子分割器(可选)。

值得注意的是,Whisper Streaming支持多种后端,包括faster-whisper、whisper-timestamped和OpenAI Whisper API。用户可以根据自己的需求和硬件条件选择合适的后端。

使用方法

Whisper Streaming提供了多种使用模式,包括:

从音频文件模拟实时处理:

python3 whisper_online.py en-demo16.wav --language en --min-chunk-size 1 > out.txt

作为Python模块使用:

from whisper_online import *

asr = FasterWhisperASR("en", "large-v2")
online = OnlineASRProcessor(asr)

while audio_has_not_ended:
    a = # 接收新的音频块
    online.insert_audio_chunk(a)
    o = online.process_iter()
    print(o) # 处理当前部分输出

作为服务器从麦克风实时获取音频:
```
whisper_online_server.py [options]
```

技术原理

Whisper Streaming的核心思想是解决Whisper模型在处理长音频时的局限性。传统的Whisper模型设计用于处理最长30秒且包含完整句子的音频片段。对于更长的音频,需要将其分割成短片段并使用"初始提示"进行合并。然而,这种简单的固定窗口分割方法在低延迟的实时流式模式下效果不佳,可能会在单词中间进行切分。

为了解决这个问题,Whisper Streaming引入了LocalAgreement-n策略:如果n个连续的更新(每个更新都有新可用的音频流块)在前缀转录上达成一致,则该前缀被确认。此外,项目还采用了以下技术: