Awesome Speaker Diarization

概述

这是一个精选的优秀说话人分段论文、库、数据集和其他资源的列表。

该仓库的目的是组织世界上所有的说话人分段资源，并使其普遍可访问且有用。

要向此页面添加项目，只需发送拉取请求。(贡献指南)

出版物

特殊主题

评论与综述

大型语言模型 (LLM)

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models, 2024
Enhancing Speaker Diarization with Large Language Models: A Contextual Beam Search Approach, 2023
Lexical speaker error correction: Leveraging language models for speaker diarization error correction, 2023

有监督的分段

联合分段与自动语音识别

在线说话人分段

挑战

音频-视觉说话人分段

其他

2021

2020

2019

2018

2017

2016

用于研究伙伴领导的团队学习小组的说话人分离系统

2015

因子分析子空间中的分割重分段

2014

2013

无监督的说话人分离方法：集成和迭代的方案

2011

2009

会议室音频的说话人分离

2008

基于流的说话人分段使用说话人因子和特征语音

2006

软件

框架

<SOURCE_TEXT>

链接	语言	描述
FunASR	Python 和 PyTorch	FunASR 是一个基于 PyTorch 的开源语音工具包，旨在弥合学术研究与工业应用之间的差距。
MiniVox	MATLAB	MiniVox 是一个开源的在线说话人分离（diarization）任务评估系统。
SpeechBrain	Python 和 PyTorch	SpeechBrain 是一个基于 PyTorch 的开源全功能语音工具包。
SIDEKIT for diarization (s4d)	Python	一个 SIDEKIT 的开源扩展包，用于说话人分离。
pyAudioAnalysis	Python	Python 音频分析库：特征提取、分类、分割和应用。
AaltoASR	Python 和 Perl	基于 AaltoASR 的说话人分离脚本。
LIUM SpkDiarization	Java	LIUM_SpkDiarization 是一款专用于说话人分离（即说话人分割和聚类）的软件。它是用 Java 编写的，并包含该领域最新的发展（截至 2013 年）。
kaldi-asr	Bash	用于对 2000 年 NIST 说话人识别评估中使用的一部分 CALLHOME 进行说话人分离的示例脚本。
kaldi-speaker-diarization	Bash	使用 kaldi 进行冰岛语说话人分离的脚本。
Alize LIA_SpkSeg	C++	ALIZÉ 是一个开源的平台用于说话人识别。LIA_SpkSeg 是用于说话人分离的工具。
pyannote-audio	Python	用于说话人分离的神经网络构建模块：语音活动检测、说话人变更检测、说话人嵌入。
pyBK	Python	使用二进制键说话人建模的说话人分离。无需外部训练数据的轻量级计算解决方案。
Speaker-Diarization	Python	使用 uis-rnn 和 GhostVLAD 进行说话人分离。支持开放集说话人的一种更简单的方法。
EEND	Python 和 Bash 和 Perl	端到端神经网络分离。
VBx	Python	基于 x-向量的变分贝叶斯 HMM 分离。x-向量提取器配方
RE-VERB	Python 和 JavaScript	RE：VERB 是说话人分离系统，允许用户发送/录制对话音频并接收说话时间戳。
StreamingSpeakerDiarization	Python	流式说话人分离，扩展了 pyannote.audio 以进行在线处理。
simple_diarizer	Python	使用一些预训练模型的简化分离管道。旨在尽可能简单地从输入音频文件到分离段。
Picovoice Falcon	C 和 Python	一个轻量级、准确且快速的说话人分离引擎，用 C 编写并可在 Python 中使用，在 CPU 上运行时具有最低的开销。
DiaPer	Python	Pytorch 实现的 DiaPer: End-to-End Neural Diarization with Perceiver-Based Attractors ，包括在免费和公共数据上预训练的模型。
</SOURCE_TEXT>
链接	语言	描述
----	--------	-----------
pyannote-metrics	Python	一个用于可重复评估、诊断和说话人分离系统错误分析的工具包。
SimpleDER	Python	一个轻量级库，用于计算分离错误率（DER）。
DiarizationLM	Python	实现了单词错误率（WER）、单词分离错误率（WDER）和串联最小排列单词错误率（cpWER）。
NIST md-eval	Perl	(1) 修改自 Mary Tai Knox 的 md-eval.pl; (2) jitendra 的 md-eval-v21.pl; (3) nryant 的 md-eval-22.pl
dscore	Python & Perl	分离评分工具。
Sequence Match Accuracy	Python	使用匈牙利算法匹配两个序列的准确性。
spyder	Python & C++	一个简单的Python包，用于快速计算DER。
CDER	Python	来自对话短语说话人分离（CSSD）任务：数据集、评估指标和基线的对话DER。

聚类

链接	语言	描述
uis-rnn	Python & PyTorch	谷歌的无边界交错状态递归神经网络（UIS-RNN）算法，用于完全监督的说话人分离。这个聚类算法是监督的。
uis-rnn-sml	Python & PyTorch	UIS-RNN的一个变体，用于论文《多领域数据的样本均值损失监督在线分离》。
DNC	Python & ESPnet	基于变压器的判别神经聚类（DNC）用于说话人分离。与UIS-RNN类似，它是监督的。
SpectralCluster	Python	带有亲和矩阵细化操作、自调节和说话人转换约束的谱聚类。
sklearn.cluster ![Build Status](https://raw.githubusercontent.com/wq2012/awesome-diarization/master/ https://api.travis-ci.org/scikit-learn/scikit-learn.svg?branch=master)	Python	scikit-learn 的聚类算法。
PLDA	Python	使用Python编写的概率线性判别分析及分类。
PLDA	C++	经典PLDA（概率线性判别分析）的开源实现。
Auto-Tuning Spectral Clustering	Python	不需要开发集和监督调整的自调节谱聚类方法。
<SOURCE_TEXT>
Link	方法	语言
----	------	--------
resemble-ai/Resemblyzer	d-vector	Python 和 PyTorch
Speaker_Verification	d-vector	Python 和 TensorFlow
PyTorch_Speaker_Verification	d-vector	Python 和 PyTorch
Real-Time Voice Cloning	d-vector	Python 和 PyTorch
deep-speaker	d-vector	Python 和 Keras
x-vector-kaldi-tf	x-vector	Python 和 TensorFlow 和 Perl
kaldi-ivector	i-vector	C++ 和 Perl
voxceleb-ivector	i-vector	Perl
pytorch_xvectors	x-vector	Python 和 PyTorch
ASVtorch	i-vector	Python 和 PyTorch
asv-subtools	i-vector 和 x-vector	Kaldi 和 PyTorch
WeSpeaker	x-vector 和 r-vector	Python 和 C++ 和 PyTorch
ReDimNet	improved resnet	Pytorch

说话人变化检测

链接	语言	描述
change_detection	Python 和 Keras	在电视播出中使用双向长短期记忆网络进行说话人变化检测的代码。
tidydiarize	Python	OpenAI Whisper 解码器中的语音分割

音频特征提取

链接	语言	描述
LibROSA	Python	用于音频和音乐分析的 Python 库。https://librosa.github.io/
python_speech_features	Python	该库提供了用于自动语音识别 (ASR) 的常见语音特征，包括 MFCCs 和滤波器能量。https://python-speech-features.readthedocs.io/en/latest/
pyAudioAnalysis	Python	Python 音频分析库：特征提取、分类、分割及应用。

音频数据增强

链接	语言	描述
pyroomacoustics	Python	Pyroomacoustics 是一个面向室内应用的音频信号处理包。它被开发为室内场景中的波束成形算法的快速原型设计平台。https://pyroomacoustics.readthedocs.io
gpuRIR	Python	用于 GPU 加速的房间脉冲响应 (RIR) 模拟的 Python 库
rir_simulator_python	Python	使用 Python 的房间脉冲响应模拟器
WavAugment	Python 和 PyTorch	WavAugment 对音频数据进行数据增强。音频数据表示为 PyTorch 张量
EEND_dataprep	Bash 和 Python	用于生成模拟对话的食谱，用于训练端到端的语音分割模型。

其他软件

</SOURCE_TEXT>

链接	语言	描述
VB Diarization	Python	使用 Eigenvoice 和 HMM 前置的 VB 分析。
DOVER-Lap	Python	用于组合分段系统输出的Python包

数据集

分段数据集

音频	分段标注	语言	价格	其他信息
2000 NIST Speaker Recognition Evaluation	Disk-6 (Switchboard), Disk-8 (CALLHOME)	多种语言	$2400.00	评估计划
2003 NIST Rich Transcription Evaluation Data	与音频一起	en, ar, zh	$2000.00	电话讲话，广播新闻
CALLHOME American English Speech	CALLHOME American English Transcripts	en	$1500.00 + $1000.00	CH109 白名单
The ICSI Meeting Corpus	与音频一起	en	免费	许可证
The AMI Meeting Corpus	与音频一起（需要处理）	多种语言	免费	许可证
Fisher English Training Speech Part 1 Speech	Fisher English Training Speech Part 1 Transcripts	en	$7000.00 + $1000.00
Fisher English Training Part 2, Speech	Fisher English Training Part 2, Transcripts	en	$7000.00 + $1000.00
VoxConverse	待定	待定	免费	VoxConverse 是一个音频视觉分段数据集，由从 YouTube 视频中提取出来的超过 50 小时的多说话者片段组成
MiniVox Benchmark	MiniVox Benchmark	en	免费	MiniVox 是一个自动框架，可以将任何带有说话者标签的数据集转换为连续的语音数据流，并在每一集揭示标签反馈。
The AliMeeting Corpus	与音频一起	zh	免费

说话者嵌入训练集

名称	话语	说话者	语言	价格	其他信息
TIMIT	6K+	630	en	$250.00	发布于1993年，TIMIT语料库是最早的说话者识别数据集之一。
VCTK	43K+	109	en	免费	大多数录音选自报纸、彩虹段落以及一个旨在识别说话者口音的段落。
LibriSpeech	292K	2K+	en	免费	大规模（1000小时）的朗读英语语料库。
Multilingual LibriSpeech (MLS)	？	？	en, de, nl, es, fr, it, pt, po	免费	多语言LibriSpeech（MLS）数据集是一个适用于语音研究的大型多语言语料库。该数据集来源于 LibriVox 的有声读物，共包含8种语言 - 英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。
LibriVox	180K	9K+	多种语言	免费	免费的公共领域有声读物。LibriSpeech是LibriVox的一个处理过的子集。每个原始的未分割话语都可能非常长。
VoxCeleb 1&2	1M+	7K	多种语言	免费	VoxCeleb 是一个音视频数据集，由从上传到 YouTube 的采访视频中提取的短片段人类讲话组成。
The Spoken Wikipedia Corpora	5K	879	en, de, nl	免费	志愿者朗读维基百科文章。
CN-Celeb	130K+	1K	zh	免费	清华大学 CSLT 发布的一个免费的中文说话人识别语料库。
BookTubeSpeech	8K	8K	en	免费	从BookTube视频中提取的音频样本 - 人们在这些视频中分享他们对书籍的看法 - 来源于 YouTube。可以使用 BookTubeSpeech-download 下载数据集。
DeepMine	540K	1850	fa, en	未知	一个波斯语和英语的语音数据库，旨在构建和评估说话者验证以及波斯语自动语音识别系统。
NISP-Dataset	？	345	hi, kn, ml, ta, te（所有印度语言）	免费	该数据集包含语音录音以及说话者物理参数（身高、体重，...）以及区域信息和语言信息。
VoxBlink2	10M	100K+	18种语言（en, pt, es, ru, ar, ...）	CC BY-NC-SA 4.0	从 VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark 获取的多语言数据集。

增强噪声源

名称	话语	价格	其他信息
AudioSet	2M	免费	一个大规模的手工注释音频事件数据集。
MUSAN	N/A	免费	MUSAN 是一个包含音乐、语音和噪声录音的语料库。

会议

会议/研讨会	频率	页数限制	组织机构	盲评
ICASSP	每年	4 + 1（参考）	IEEE	否
InterSpeech	每年	4 + 1（参考）	ISCA	否
Speaker Odyssey	每两年	8 + 2（参考）	ISCA	否
SLT	每两年	6 + 2（参考）	IEEE	是
ASRU	每两年	6 + 2（参考）	IEEE	是
WASPAA	每两年	4 + 1（参考）	IEEE	否
IJCB	每年	8	IEEE 和 IAPR TC-4	是

其他学习资料

产品

公司	产品
Google	录音机应用
Google	谷歌云语音识别 API
Amazon	Amazon Transcribe
IBM	Watson 语音转文本 API
DeepAffects	Speaker Diarization API
阿里巴巴	听悟
Microsoft	Azure 对话转录 API