Whisper-transcription_and_diarization-speaker-identification-

Whisper 转录与说话人分离（语言辨识）项目介绍

项目背景

Whisper 是 OpenAI 开发的一种最先进的语音识别系统。它经过 680,000 小时的多语言和多任务监督数据训练，这些数据是从互联网上收集的。如此大规模和多样化的训练数据增强了系统对口音、背景噪音和专业术语的识别能力。此外，Whisper 可以识别多种语言，并支持这些语言翻译成英语。虽然 Whisper 非常强大，但它有一个不足之处——不能识别对话者的身份。在对话分析中，这是一个需要解决的问题。因此，我们引入了分离技术（diarization），即辨别在对话中谁在说话。

这个项目将讲解如何利用 pyannote-audio 来进行说话人辨识，并将结果与 Whisper 的转录相匹配，以实现自动化的音频分析处理。

音频准备

首先，我们需要获取并准备音频文件。在这里，我们使用了 Lex Fridman 和 Yann Lecun 的播客的前 20 分钟内容。借助 yt-dlp 包，我们可以从视频中提取音频。以下安装命令将帮助你进行此操作：

!pip install -U yt-dlp

同时，我们还需要安装 ffmpeg。

下载并提取音频后，我们使用 pydub 剪辑音频，只需几行代码即可完成：

!pip install pydub
from pydub import AudioSegment

t1 = 0 * 1000
t2 = 20 * 60 * 1000

newAudio = AudioSegment.from_wav("download.wav")
a = newAudio[t1:t2]
a.export("audio.wav", format="wav")

使用 Pyannote 进行说话人分离

pyannote.audio 是一个用 Python 编写的开源工具包，用于说话人分离。基于 PyTorch 的机器学习框架，它提供了一整套可训练的端到端神经构建模块，可结合并联合优化以构建说话人分离管线。pyannote.audio 提供了多种领域的预训练模型和管道，这些管道涵盖了语音活动检测、说话人分段、重叠语音检测、说话人嵌入等，性能在多个领域达到最前沿水平。

安装和运行 Pyannote 来生成说话人分离结果：

!pip install pyannote.audio

from pyannote.audio import Pipeline

pipeline = Pipeline.from_pretrained('pyannote/speaker-diarization')
DEMO_FILE = {'uri': 'blabal', 'audio': 'audio.wav'}
dz = pipeline(DEMO_FILE)  

with open("diarization.txt", "w") as text_file:
    text_file.write(str(dz))

通过 Whisper 进行转录

接下来，我们使用 Whisper 对不同的音频片段进行转录。需要注意的是，由于与 pyannote.audio 版本冲突，可能会引发错误。解决方法是先运行 Pyannote，然后再运行 Whisper，错误信息可以忽略。

安装 OpenAI Whisper：

!pip install git+https://github.com/openai/whisper.git

然后，运行 Whisper 对处理后的音频文件进行转录：

!whisper dz.wav --language en --model base

匹配转录与说话人分离结果

最后步骤是将每条转录匹配到一些说话人分离结果上。我们通过生成一个 HTML 文件来展示一切。在这一步中，我们要仔细处理原始音频中不在任何说话人分离片段中的部分。

<!DOCTYPE html>
<html lang="en">
...
</html>

通过这样的方法，项目不仅实现了音频的自动转录，还可以辨识对话者的身份，为进一步的语音数据分析提供了强大的工具。该项目不仅展示了 Whisper 在语音识别领域的强大功能，还通过与 Pyannote 的结合，弥补了说话人辨识的不足，为广大开发者提供了实用的音频数据处理解决方案。

Whisper 转录与说话人分离（语言辨识）项目介绍

项目背景

音频准备

使用 Pyannote 进行说话人分离

通过 Whisper 进行转录

匹配转录与说话人分离结果

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号