deep-speaker

Deep Speaker 项目介绍

项目概述

Deep Speaker 是一个端到端的神经网络说话人嵌入系统，设计目的是将语音片段映射到一个高维空间中。在这个空间内，说话人的相似性通过余弦相似度来衡量。这一系统生成的嵌入可以用于多种任务，比如说话人识别、验证及聚类。

使用技术与工具

Deep Speaker 使用 TensorFlow 和 Keras 进行实现，适用于 Tensorflow 版本 2.3、2.4、2.5 和 2.6。其训练模型主要以 ResCNN 架构及 Softmax 和 Triplet Loss 方法进行优化，能够在干净的语言数据上达到较好表现。

系统要求与训练

要完整训练 Deep Speaker 模型，建议的系统配置包括：

至少 300GB 的快速 SSD 磁盘空间（其中 250GB 为未压缩及处理后的数据）。
32GB 内存和至少 32GB 的交换空间。
NVIDIA GPU，比如 1080Ti。

为了训练模型，用户需要安装必要的依赖项，并确保具有适当的硬件环境。所有的音频文件需要以 .flac 格式保存，如有 .wav 格式的文件，可以使用 ffmpeg 进行转换。执行训练代码的过程可能需要大约一周的时间。

示例结果

训练后的模型在 LibriSpeech 数据集上获得了一些非常亮眼的结果。例如，通过 ResCNN Softmax+Triplet 方法训练的模型在 2484 位说话人的测试集上，获取了约 84.3% 的 f-measure，82.5% 的真阳性率，99.7% 的准确率，以及 0.025 的等错误率。需注意的是，这些测试是在较为干净的语音数据上完成的，在有背景噪音的情况下性能会有所下降。