Speech Dataset Generator: 强大的语音数据集生成工具

speech-dataset-generator

Speech Dataset Generator: 打造高质量语音数据集的利器

在当今人工智能飞速发展的时代,语音技术正在各个领域发挥着越来越重要的作用。无论是智能语音助手、语音识别系统还是文本转语音应用,高质量的语音数据集都是其发展的基石。然而,构建一个专业的语音数据集往往需要耗费大量的时间和精力。为了解决这一难题,David Martin Rius开发了Speech Dataset Generator这一强大的开源工具,旨在简化语音数据集的创建过程,为语音AI的研究与应用提供有力支持。

多样化的功能满足各种需求

Speech Dataset Generator提供了一系列丰富而强大的功能,使其成为语音数据处理的全能助手:

数据集生成: 支持创建多语言数据集,并提供平均意见得分(MOS)评估。
静音消除: 能够有效去除音频文件中的静音部分,提升整体音质。
音质增强: 在需要时对音频进行质量改善处理。
音频分割: 可以在指定的时间范围内对音频文件进行分割。
转录: 为分割后的音频片段生成文字转录。
性别识别: 识别每个说话人的性别。
说话人嵌入: 利用pyannote嵌入技术在多个音频文件中检测说话人。
自动说话人命名: 为多个音频中检测到的说话人自动分配名称。
多说话人检测: 能够在每个音频文件中检测多个说话人。
说话人嵌入存储: 将检测到的说话人信息存储在Chroma向量数据库中,无需手动分配说话人名称。
语速指标: 计算每句话的语速,包括每分钟单词数(wpm)和每分钟音节数(spm)。
多种输入源: 支持使用本地文件,也可以通过URL下载YouTube、LibriVox和TED Talk等平台的内容。

这些功能使Speech Dataset Generator成为一个全面而强大的语音数据处理工具,能够满足研究人员和开发者在语音数据集构建过程中的各种需求。

灵活的输出结构

Speech Dataset Generator生成的数据集具有清晰而灵活的结构,便于后续的使用和管理:

outputs
|-- main_data.csv
|
|-- chroma_database
|
|-- enhanced_audios
|
|-- ljspeech
|   |-- wavs
|   |   |-- 1272-128104-0000.wav
|   |   |-- 1272-128104-0001.wav
|   |   |-- ...
|   |   |-- 1272-128104-0225.wav
|   |-- metadata.csv
|
|-- librispeech
|   |-- speaker_id1
|   |   |-- book_id1
|   |   |   |-- transcription.txt
|   |   |   |-- file1.wav
|   |   |   |-- file2.wav
|   |   |   |-- ...
|   |-- speaker_id2
|   |   |-- book_id1
|   |   |   |-- transcription.txt
|   |   |   |-- file1.wav
|   |   |   |-- file2.wav
|   |   |   |-- ...

这种结构不仅组织有序,还为不同类型的语音数据集提供了灵活的存储方案。

简单易用的安装和使用

尽管Speech Dataset Generator功能强大,但其安装和使用却非常简单直观。用户只需按照以下步骤即可开始使用:

确保系统中安装了ffmpeg并设置了正确的系统路径。
创建并激活Python虚拟环境:

python3.10 -m venv venv 
source venv/bin/activate

安装所需依赖:

pip install -r requirements.txt

或者

pip install -e .

如果需要在项目文件夹外使用,请设置PYTHONPATH:

export PYTHONPATH=/path/to/your/speech-dataset-generator:$PYTHONPATH

使用时,用户可以通过命令行参数灵活控制各种功能。例如:

python speech_dataset_generator/main.py --input_file_path /path/to/audio/file.mp3 --output_directory /output/directory --range_times 5-10 --enhancers deepfilternet

这个命令将处理指定的音频文件,输出到指定目录,设置音频片段时长范围为5-10秒,并使用deepfilternet进行音质增强。