speaker-diarization-3.1

项目介绍：Speaker Diarization 3.1

项目概述

Speaker Diarization 3.1是一个开源的音频处理管道，主要用于语音分割和说话人识别。这个项目基于pyannote.audio库，并采用纯粹的PyTorch实现了说话人分割和嵌入。这使得该管道更容易部署，推理可能更快。Speaker Diarization 3.1能够将单声道音频文件按照说话人进行标记，并自动将立体声或多声道音频文件混合为单声道，将采样频率不同的音频文件重新采样至16kHz。

使用要求

要使用Speaker Diarization 3.1，用户需要满足以下条件：

安装pyannote.audio版本3.1或更高版本，可以通过pip install pyannote.audio进行安装。
接受pyannote/segmentation-3.0及pyannote/speaker-diarization-3.1的用户条款。
在hf.co/settings/tokens创建访问令牌。

使用方法

要在Python环境中使用此管道，用户可以按照以下步骤操作：

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="你的访问令牌")

diarization = pipeline("audio.wav")

with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

进阶用法

使用GPU

默认情况下，pyannote.audio管道在CPU上运行。但如果需要，可以将其移至GPU运行：

import torch
pipeline.to(torch.device("cuda"))

内存中处理

预加载音频文件到内存中可以加快处理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

进度监控

可以使用钩子来监控管道的处理进度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制说话人数

如果已知说话人数，可以使用num_speakers选项：

diarization = pipeline("audio.wav", num_speakers=2)

用户还可以用min_speakers和max_speakers选项来设置说话人数上下限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

基准测试

Speaker Diarization 3.1通过大量数据集进行了基准测试，并采用最严格的Diarization Error Rate (DER)评估标准进行自动化处理，无需手动检测语音活动或细调模型参数。多个数据集的测试结果显示，其DER、误告警率、漏检率及说话人混淆率均在可接受范围内。

引用

如果在学术研究中使用了这个项目，可以参考以下引用格式：

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

该项目为研究人员和开发人员提供了一个强大而灵活的工具，用于处理和分析音频数据中的说话人信息。