WeSpeaker：一个面向研究和生产的说话人嵌入学习工具包

wespeaker

WeSpeaker简介

WeSpeaker是由微软亚洲研究院与上海交通大学联合开发的一款面向研究和生产的说话人嵌入学习工具包。它专注于说话人相关任务,包括说话人验证、识别和分离等。WeSpeaker提供了从数据处理、模型训练到部署的全流程解决方案,旨在为研究人员和工程师提供一个高效、灵活且易用的开发平台。

WeSpeaker架构图

主要特性

WeSpeaker具有以下几个突出特点:

全面的功能支持: 涵盖了说话人验证、识别和分离等主要任务,同时支持监督学习和自监督学习两种范式。
先进的模型实现: 集成了ResNet、ECAPA-TDNN、CAM++等多种主流模型结构,并提供了大量预训练模型。
高效的数据处理: 采用高效的数据管理和增强策略,支持大规模数据集的快速处理。
灵活的训练框架: 提供了多种损失函数和后端评分方法,方便用户进行实验和优化。
便捷的部署方案: 支持ONNX、TensorRT等多种推理框架,可在多种平台上高效部署。
丰富的实践案例: 提供了VoxCeleb、CNCeleb等数据集上的完整训练流程和最佳实践。

快速上手

要开始使用WeSpeaker,您可以按照以下步骤操作:

安装WeSpeaker:

pip install wespeaker

准备数据集,例如VoxCeleb:

# 下载并解压VoxCeleb数据集
wget https://thor.robots.ox.ac.uk/~vgg/data/voxceleb/vox1a/vox1_dev_wav_partaa
tar -xvf vox1_dev_wav_partaa

训练模型:

from wespeaker.models import ECAPA_TDNN
from wespeaker.trainer import Trainer

# 初始化模型
model = ECAPA_TDNN(input_size=80, channels=512, embd_dim=192)

# 配置训练参数
trainer = Trainer(
    model=model,
    train_data='path/to/voxceleb/train',
    valid_data='path/to/voxceleb/test',
    num_epochs=50,
    batch_size=64,
    lr=0.001
)

# 开始训练
trainer.train()

使用预训练模型进行推理:

import torch
from wespeaker.models import ECAPA_TDNN

# 加载预训练模型
model = ECAPA_TDNN.from_pretrained('wespeaker/ecapa-tdnn-voxceleb')

# 提取说话人嵌入
audio, sr = torchaudio.load('test.wav')
emb = model(audio)