在生产环境中使用pyannote.audio
开源工具包?
考虑切换到pyannoteAI以获得更好更快的选择。
pyannote.audio
说话人分类工具包pyannote.audio
是一个用Python编写的开源说话人分类工具包。基于PyTorch机器学习框架,它提供了最先进的预训练模型和流程,可以进一步针对您自己的数据进行微调以获得更好的性能。
pip install pyannote.audio
安装pyannote.audio
pyannote/segmentation-3.0
用户条款pyannote/speaker-diarization-3.1
用户条款hf.co/settings/tokens
创建访问令牌。from pyannote.audio import Pipeline pipeline = Pipeline.from_pretrained( "pyannote/speaker-diarization-3.1", use_auth_token="在此处填入HUGGINGFACE访问令牌") # 将流程发送到GPU(如果可用) import torch pipeline.to(torch.device("cuda")) # 应用预训练流程 diarization = pipeline("audio.wav") # 打印结果 for turn, _, speaker in diarization.itertracks(yield_label=True): print(f"开始={turn.start:.1f}秒 结束={turn.end:.1f}秒 说话人_{speaker}") # 开始=0.2秒 结束=1.5秒 说话人_0 # 开始=1.8秒 结束=3.9秒 说话人_1 # 开始=4.2秒 结束=5.7秒 说话人_0 # ...