WhisperLive: 实时语音转文字的革新之作

WhisperLive

WhisperLive: 开启实时语音识别新纪元

在人工智能和语音识别技术飞速发展的今天,实时、准确的语音转文字系统已成为许多应用场景中不可或缺的工具。WhisperLive作为一个基于OpenAI Whisper模型的近实时语音转文字实现,正在为这一领域带来革命性的变革。本文将全面介绍WhisperLive的特性、使用方法以及它在语音识别领域的重要意义。

WhisperLive的核心特性

WhisperLive是一个实时转录应用程序,它利用OpenAI的Whisper模型将语音输入转换为文本输出。与传统的语音识别系统不同,WhisperLive具有以下几个突出特点:

实时性能: WhisperLive能够处理实时的麦克风输入,也可以转录预先录制的音频文件,为用户提供近乎实时的语音识别体验。
多语言支持: 得益于Whisper模型的强大能力,WhisperLive支持多种语言的识别和翻译。
灵活的后端选择: WhisperLive支持两种主要的后端实现 - faster_whisper和tensorrt,用户可以根据自己的需求和硬件条件选择合适的后端。
语音活动检测(VAD): WhisperLive集成了语音活动检测技术,只在检测到语音时才发送音频数据到Whisper模型,这大大提高了系统的效率和准确性。
浏览器扩展支持: WhisperLive提供了Chrome和Firefox浏览器扩展,使用户可以直接在浏览器中进行音频转录。
Docker支持: WhisperLive提供了Docker镜像,支持GPU和CPU两种运行环境,极大地简化了部署过程。

WhisperLive的安装与使用

安装过程

要开始使用WhisperLive,首先需要安装必要的依赖:

安装PyAudio和ffmpeg
通过pip安装whisper-live:

pip install whisper-live

对于想要使用TensorRT后端的用户,还需要按照TensorRT_whisper的说明设置NVIDIA/TensorRT-LLM并构建Whisper-TensorRT引擎。

运行服务器

WhisperLive支持两种后端:faster_whisper和tensorrt。以下是使用faster_whisper后端启动服务器的示例:

python3 run_server.py --port 9090 \
                      --backend faster_whisper

如果要使用自定义模型,可以这样运行:

python3 run_server.py --port 9090 \
                      --backend faster_whisper \
                      -fw "/path/to/custom/faster/whisper/model"

对于TensorRT后端,建议使用Docker设置。在构建好TensorRT引擎后,可以这样运行服务器:

python3 run_server.py -p 9090 \
                      -b tensorrt \
                      -trt /home/TensorRT-LLM/examples/whisper/whisper_small_en

客户端使用

WhisperLive的客户端使用非常简单。以下是一个基本的客户端初始化和使用示例:

from whisper_live.client import TranscriptionClient

client = TranscriptionClient(
  "localhost",
  9090,
  lang="en",
  translate=False,
  model="small",
  use_vad=False,
  save_output_recording=True,
  output_recording_filename="./output_recording.wav"
)

# 转录音频文件
client("path/to/audio/file.wav")

# 从麦克风转录
client()

# 从RTSP流转录
client(rtsp_url="rtsp://admin:admin@192.168.0.1/rtsp")

# 从HLS流转录
client(hls_url="http://example.com/live/stream.m3u8")