PESTO: 革新音高估计的新方法

pesto

PESTO: 革新音高估计的新方法

在音乐信息检索(MIR)领域,音高估计一直是一个关键而富有挑战性的任务。近年来,随着深度学习技术的发展,基于神经网络的方法在这一领域取得了显著进展。然而,这些方法通常需要大量标注数据进行训练,计算复杂度高,难以在资源受限的环境中应用。为了解决这些问题,索尼计算机科学实验室巴黎分部(Sony CSL Paris)的研究人员提出了一种新的音高估计方法—PESTO(Pitch Estimation with Self-supervised Transposition-equivariant Objective)。

PESTO的核心思想

PESTO采用自监督学习的方法,无需大量标注数据即可训练出高性能的音高估计模型。其核心思想是利用音乐信号的平移等变性质,设计了一种新颖的自监督学习目标函数。具体来说,PESTO通过学习预测音频信号在频率域上的平移变换,间接地学习到音高估计的能力。

这种方法的优势在于:

无需标注数据,可以利用大量未标注的音频数据进行训练
模型结构简单,参数量少,计算效率高
学习到的特征具有良好的泛化性

PESTO的技术实现

PESTO的技术实现主要包括以下几个方面:

数据预处理: 使用恒Q变换(CQT)将音频信号转换为时频表示。
网络架构: 采用轻量级的卷积神经网络作为基础模型。
自监督学习目标: 设计了一种基于频率平移的预测任务,使模型能够学习到音高相关的特征。
后处理: 使用加权平均等方法将模型输出转换为最终的音高估计结果。

PESTO的性能评估

研究人员在多个公开数据集上评估了PESTO的性能,包括MIR-1K和MDB-stem-synth等。实验结果表明:

PESTO的音高估计精度接近甚至超过了监督学习方法CREPE,而CREPE的参数量是PESTO的800倍。
PESTO在推理速度上有显著优势。在CPU上,PESTO可以实现比CREPE快12倍的处理速度,非常适合需要实时处理的应用场景。
PESTO在不同类型的音乐数据上都表现出良好的泛化性能。

PESTO性能对比图

PESTO的实际应用

PESTO作为一个开源项目,提供了便捷的命令行接口和Python API,方便研究人员和开发者使用。其主要应用场景包括:

音乐信息检索: 可用于自动音高标注、和弦识别等任务。
音乐创作辅助: 为音乐制作软件提供实时的音高检测功能。
音频信号处理: 在语音增强、音频效果器等应用中作为基础组件。
音乐教育: 开发音高训练、演奏评分等教育应用。

PESTO的使用方法

PESTO的使用非常简单,以下是一些基本用法:

命令行使用:

python -m pesto my_audio.wav

Python API:

import torchaudio
import pesto

x, sr = torchaudio.load("my_audio.wav")
x = x.mean(dim=0)  # PESTO takes mono audio as input
timesteps, pitch, confidence, activations = pesto.predict(x, sr)