awesome-diarization

awesome-diarization

说话者分离和语音分割的数据集

提供全面的说话者分离资源,包括最新的论文、软件工具、数据集和学习材料,旨在推进语音分割和说话者识别技术的发展。这些资源汇集了深度学习的最新进展及其实际应用,帮助研究人员和开发者找到最有效的解决方案。

Speaker DiarizationFunASRSpeechBrainMiniVoxSIDEKITGithub开源项目

Awesome Speaker Diarization Awesome Contribution

目录

概述

这是一个精选的优秀说话人分段论文、库、数据集和其他资源的列表。

该仓库的目的是组织世界上所有的说话人分段资源,并使其普遍可访问且有用。

要向此页面添加项目,只需发送拉取请求。(贡献指南)

出版物

特殊主题

评论与综述

大型语言模型 (LLM)

有监督的分段

联合分段与自动语音识别

在线说话人分段

挑战

音频-视觉说话人分段

其他

2021

2020

2019

2018

2017

2016

2015

2014

2013

2011

2009

2008

2006

软件

框架

<SOURCE_TEXT>

链接语言描述
FunASR GitHub starsPython 和 PyTorchFunASR 是一个基于 PyTorch 的开源语音工具包,旨在弥合学术研究与工业应用之间的差距。
MiniVox GitHub starsMATLABMiniVox 是一个开源的在线说话人分离(diarization)任务评估系统。
SpeechBrain GitHub starsPython 和 PyTorchSpeechBrain 是一个基于 PyTorch 的开源全功能语音工具包。
SIDEKIT for diarization (s4d)Python一个 SIDEKIT 的开源扩展包,用于说话人分离。
pyAudioAnalysis GitHub starsPythonPython 音频分析库:特征提取、分类、分割和应用。
AaltoASR GitHub starsPython 和 Perl基于 AaltoASR 的说话人分离脚本。
LIUM SpkDiarizationJavaLIUM_SpkDiarization 是一款专用于说话人分离(即说话人分割和聚类)的软件。它是用 Java 编写的,并包含该领域最新的发展(截至 2013 年)。
kaldi-asr Build StatusBash用于对 2000 年 NIST 说话人识别评估中使用的一部分 CALLHOME 进行说话人分离的示例脚本。
kaldi-speaker-diarization GitHub starsBash使用 kaldi 进行冰岛语说话人分离的脚本。
Alize LIA_SpkSegC++ALIZÉ 是一个开源的平台用于说话人识别。LIA_SpkSeg 是用于说话人分离的工具。
pyannote-audio GitHub starsPython用于说话人分离的神经网络构建模块:语音活动检测、说话人变更检测、说话人嵌入。
pyBK GitHub starsPython使用二进制键说话人建模的说话人分离。无需外部训练数据的轻量级计算解决方案。
Speaker-Diarization GitHub starsPython使用 uis-rnn 和 GhostVLAD 进行说话人分离。支持开放集说话人的一种更简单的方法。
EEND GitHub starsPython 和 Bash 和 Perl端到端神经网络分离。
VBx GitHub starsPython基于 x-向量的变分贝叶斯 HMM 分离。x-向量提取器配方
RE-VERB GitHub starsPython 和 JavaScriptRE:VERB 是说话人分离系统,允许用户发送/录制对话音频并接收说话时间戳。
StreamingSpeakerDiarization GitHub starsPython流式说话人分离,扩展了 pyannote.audio 以进行在线处理。
simple_diarizerPython使用一些预训练模型的简化分离管道。旨在尽可能简单地从输入音频文件到分离段。
Picovoice Falcon GitHub starsC 和 Python一个轻量级、准确且快速的说话人分离引擎,用 C 编写并可在 Python 中使用,在 CPU 上运行时具有最低的开销。
DiaPer GitHub starsPythonPytorch 实现的 DiaPer: End-to-End Neural Diarization with Perceiver-Based Attractors ,包括在免费和公共数据上预训练的模型。
</SOURCE_TEXT>
链接语言描述
-----------------------
pyannote-metrics GitHub stars Build StatusPython一个用于可重复评估、诊断和说话人分离系统错误分析的工具包。
SimpleDER GitHub stars Python packagePython一个轻量级库,用于计算分离错误率(DER)。
DiarizationLM GitHub stars Build StatusPython实现了单词错误率(WER)、单词分离错误率(WDER)和串联最小排列单词错误率(cpWER)。
NIST md-evalPerl(1) 修改自 Mary Tai Knoxmd-eval.pl; (2) jitendramd-eval-v21.pl; (3) nryantmd-eval-22.pl
dscore GitHub starsPython & Perl分离评分工具。
Sequence Match AccuracyPython使用匈牙利算法匹配两个序列的准确性。
spyder GitHub starsPython & C++一个简单的Python包,用于快速计算DER。
CDER GitHub starsPython来自对话短语说话人分离(CSSD)任务:数据集、评估指标和基线的对话DER。

聚类

链接语言描述
uis-rnn GitHub stars Build StatusPython & PyTorch谷歌的无边界交错状态递归神经网络(UIS-RNN)算法,用于完全监督的说话人分离。这个聚类算法是监督的
uis-rnn-sml GitHub starsPython & PyTorchUIS-RNN的一个变体,用于论文《多领域数据的样本均值损失监督在线分离》。
DNC GitHub starsPython & ESPnet基于变压器的判别神经聚类(DNC)用于说话人分离。与UIS-RNN类似,它是监督的
SpectralCluster GitHub stars Build StatusPython带有亲和矩阵细化操作、自调节和说话人转换约束的谱聚类。
sklearn.cluster ![Build Status](https://raw.githubusercontent.com/wq2012/awesome-diarization/master/ https://api.travis-ci.org/scikit-learn/scikit-learn.svg?branch=master)Pythonscikit-learn 的聚类算法。
PLDA GitHub starsPython使用Python编写的概率线性判别分析及分类。
PLDA GitHub starsC++经典PLDA(概率线性判别分析)的开源实现。
Auto-Tuning Spectral Clustering GitHub starsPython不需要开发集和监督调整的自调节谱聚类方法。
<SOURCE_TEXT>
Link方法语言
------------------
resemble-ai/Resemblyzer GitHub starsd-vectorPython 和 PyTorch
Speaker_Verification GitHub starsd-vectorPython 和 TensorFlow
PyTorch_Speaker_Verification GitHub starsd-vectorPython 和 PyTorch
Real-Time Voice Cloning GitHub starsd-vectorPython 和 PyTorch
deep-speaker GitHub starsd-vectorPython 和 Keras
x-vector-kaldi-tf GitHub starsx-vectorPython 和 TensorFlow 和 Perl
kaldi-ivector GitHub starsi-vectorC++ 和 Perl
voxceleb-ivector GitHub starsi-vectorPerl
pytorch_xvectors GitHub starsx-vectorPython 和 PyTorch
ASVtorchi-vectorPython 和 PyTorch
asv-subtools GitHub starsi-vector 和 x-vectorKaldi 和 PyTorch
WeSpeaker GitHub starsx-vector 和 r-vectorPython 和 C++ 和 PyTorch
ReDimNet GitHub starsimproved resnetPytorch

说话人变化检测

链接语言描述
change_detection GitHub starsPython 和 Keras在电视播出中使用双向长短期记忆网络进行说话人变化检测的代码。
tidydiarize GitHub starsPythonOpenAI Whisper 解码器中的语音分割

音频特征提取

链接语言描述
LibROSA GitHub starsPython用于音频和音乐分析的 Python 库。https://librosa.github.io/
python_speech_features GitHub starsPython该库提供了用于自动语音识别 (ASR) 的常见语音特征,包括 MFCCs 和滤波器能量。https://python-speech-features.readthedocs.io/en/latest/
pyAudioAnalysis GitHub starsPythonPython 音频分析库:特征提取、分类、分割及应用。

音频数据增强

链接语言描述
pyroomacoustics GitHub starsPythonPyroomacoustics 是一个面向室内应用的音频信号处理包。它被开发为室内场景中的波束成形算法的快速原型设计平台。https://pyroomacoustics.readthedocs.io
gpuRIR GitHub starsPython用于 GPU 加速的房间脉冲响应 (RIR) 模拟的 Python 库
rir_simulator_python GitHub starsPython使用 Python 的房间脉冲响应模拟器
WavAugment GitHub starsPython 和 PyTorchWavAugment 对音频数据进行数据增强。音频数据表示为 PyTorch 张量
EEND_dataprep GitHub starsBash 和 Python用于生成模拟对话的食谱,用于训练端到端的语音分割模型。

其他软件

</SOURCE_TEXT>

链接语言描述
VB Diarization GitHub stars Build StatusPython使用 Eigenvoice 和 HMM 前置的 VB 分析。
DOVER-Lap GitHub starsPython用于组合分段系统输出的Python包

数据集

分段数据集

音频分段标注语言价格其他信息
2000 NIST Speaker Recognition EvaluationDisk-6 (Switchboard), Disk-8 (CALLHOME)多种语言$2400.00评估计划
2003 NIST Rich Transcription Evaluation Data与音频一起en, ar, zh$2000.00电话讲话,广播新闻
CALLHOME American English SpeechCALLHOME American English Transcriptsen$1500.00 + $1000.00CH109 白名单
The ICSI Meeting Corpus与音频一起en免费许可证
The AMI Meeting Corpus与音频一起(需要处理)多种语言免费许可证
Fisher English Training Speech Part 1 SpeechFisher English Training Speech Part 1 Transcriptsen$7000.00 + $1000.00
Fisher English Training Part 2, SpeechFisher English Training Part 2, Transcriptsen$7000.00 + $1000.00
VoxConverse待定待定免费VoxConverse 是一个音频视觉分段数据集,由从 YouTube 视频中提取出来的超过 50 小时的多说话者片段组成
MiniVox BenchmarkMiniVox Benchmarken免费MiniVox 是一个自动框架,可以将任何带有说话者标签的数据集转换为连续的语音数据流,并在每一集揭示标签反馈。
The AliMeeting Corpus与音频一起zh免费

说话者嵌入训练集

名称话语说话者语言价格其他信息
TIMIT6K+630en$250.00发布于1993年,TIMIT语料库是最早的说话者识别数据集之一。
VCTK43K+109en免费大多数录音选自报纸、彩虹段落以及一个旨在识别说话者口音的段落。
LibriSpeech292K2K+en免费大规模(1000小时)的朗读英语语料库。
Multilingual LibriSpeech (MLS)en, de, nl, es, fr, it, pt, po免费多语言LibriSpeech(MLS)数据集是一个适用于语音研究的大型多语言语料库。该数据集来源于 LibriVox 的有声读物,共包含8种语言 - 英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。
LibriVox180K9K+多种语言免费免费的公共领域有声读物。LibriSpeech是LibriVox的一个处理过的子集。每个原始的未分割话语都可能非常长。
VoxCeleb 1&21M+7K多种语言免费VoxCeleb 是一个音视频数据集,由从上传到 YouTube 的采访视频中提取的短片段人类讲话组成。
The Spoken Wikipedia Corpora5K879en, de, nl免费志愿者朗读维基百科文章。
CN-Celeb130K+1Kzh免费清华大学 CSLT 发布的一个免费的中文说话人识别语料库。
BookTubeSpeech8K8Ken免费从BookTube视频中提取的音频样本 - 人们在这些视频中分享他们对书籍的看法 - 来源于 YouTube。可以使用 BookTubeSpeech-download 下载数据集。
DeepMine540K1850fa, en未知一个波斯语和英语的语音数据库,旨在构建和评估说话者验证以及波斯语自动语音识别系统。
NISP-Dataset345hi, kn, ml, ta, te(所有印度语言)免费该数据集包含语音录音以及说话者物理参数(身高、体重,...)以及区域信息和语言信息。
VoxBlink210M100K+18种语言(en, pt, es, ru, ar, ...)CC BY-NC-SA 4.0VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark 获取的多语言数据集。

增强噪声源

名称话语价格其他信息
AudioSet2M免费一个大规模的手工注释音频事件数据集。
MUSANN/A免费MUSAN 是一个包含音乐、语音和噪声录音的语料库。

会议

会议/研讨会频率页数限制组织机构盲评
ICASSP每年4 + 1(参考)IEEE
InterSpeech每年4 + 1(参考)ISCA
Speaker Odyssey每两年8 + 2(参考)ISCA
SLT每两年6 + 2(参考)IEEE
ASRU每两年6 + 2(参考)IEEE
WASPAA每两年4 + 1(参考)IEEE
IJCB每年8IEEE 和 IAPR TC-4

其他学习资料

在线课程

书籍

技术博客

视频教程

产品

公司产品
Google录音机应用
Google谷歌云语音识别 API
AmazonAmazon Transcribe
IBMWatson 语音转文本 API
DeepAffectsSpeaker Diarization API
阿里巴巴听悟
MicrosoftAzure 对话转录 API

Star History

Star History Chart

编辑推荐精选

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

下拉加载更多