basic-pitch

基本音高标志

PyPI - Python 版本

Basic Pitch 是一个用于自动音乐转录（AMT）的 Python 库，它使用由 Spotify 音频智能实验室开发的轻量级神经网络。它体积小、易于使用，可通过 pip install 安装，也可以通过其姊妹库使用 npm install 安装。

Basic Pitch 虽然简单，但远非"基础"！basic-pitch 高效易用，其多音高支持、跨乐器通用性和音符准确性可与更大型、更耗资源的 AMT 系统相媲美。

只需提供兼容的音频文件，basic-pitch 就能生成包含音高弯曲的 MIDI 文件。Basic pitch 不受乐器限制，支持复音乐器，因此您可以自由享受所有喜爱音乐的转录，无论使用何种乐器。Basic pitch 最适合一次处理一种乐器。

研究论文

该库与 Spotify 在 ICASSP 2022 上的发表同时发布。您可以在论文 A Lightweight Instrument-Agnostic Model for Polyphonic Note Transcription and Multipitch Estimation 中了解更多关于这项研究的信息。

如果您在学术研究中使用此库，请考虑引用它：

@inproceedings{2022_BittnerBRME_LightweightNoteTranscription_ICASSP,
  author= {Bittner, Rachel M. and Bosch, Juan Jos\'e and Rubinstein, David and Meseguer-Brocal, Gabriel and Ewert, Sebastian},
  title= {A Lightweight Instrument-Agnostic Model for Polyphonic Note Transcription and Multipitch Estimation},
  booktitle= {Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)},
  address= {Singapore},
  year= 2022,
}

请注意，我们已经在该论文的基础上改进了 Basic Pitch。因此，如果您在学术研究中使用 Basic Pitch 的输出，我们建议您引用所使用的代码版本。

演示

如果由于某种原因您还没有完全被启发，或者您只是对整体氛围之类的事情感到厌倦，那么请查看我们简洁的演示网站 basicpitch.io，在那里您可以使用我们的模型对您提供的任何音乐音频进行实验！

安装

basic-pitch 可通过 PyPI 获得。要安装当前版本：

pip install basic-pitch

要将 Basic Pitch 更新到最新版本，请在上述命令中添加 --upgrade。

兼容环境：

MacOS、Windows 和 Ubuntu 操作系统
Python 版本 3.7、3.8、3.9、3.10、3.11
对于 Mac M1 硬件，我们目前仅支持 Python 3.10 版本。否则，我们建议使用虚拟机。

模型运行时

Basic Pitch 提供原始 TensorFlow 模型以及转换为 CoreML、TensorFlowLite 和 ONNX 的 TensorFlow 模型。默认情况下，Basic Pitch 不会将 TensorFlow 作为依赖项安装，除非您使用 Python>=3.11。相反，默认情况下，CoreML 将安装在 MacOS 上，TensorFlowLite 将安装在 Linux 上，ONNX 将安装在 Windows 上。如果您想与默认模型推理运行时一起安装 TensorFlow，可以通过 pip install basic-pitch[tf] 安装 TensorFlow。

使用

模型预测

模型运行时

默认情况下，Basic Pitch 将按以下顺序尝试加载模型：

TensorFlow
CoreML
TensorFlowLite
ONNX

此外，模块变量 ICASSP_2022_MODEL_PATH 将默认为列表中第一个可用的版本。

我们将在下面解释如何覆盖此优先级列表。由于所有其他模型序列化都是从 TensorFlow 转换而来，我们建议尽可能使用 TensorFlow。注意：Basic Pitch 默认不安装 TensorFlow，以节省用户安装和运行 Basic Pitch 的时间。

命令行工具

该库提供命令行工具界面。基本预测命令将生成 <input-audio-path> 处音频的 MIDI 文件转录，并将其保存到 <output-directory>：

basic-pitch <output-directory> <input-audio-path>

例如：

basic-pitch /output/directory/path /input/audio/path

要一次处理多个音频文件：

basic-pitch <output-directory> <input-audio-path-1> <input-audio-path-2> <input-audio-path-3>

您可以选择在预测命令中附加以下任何标志，以将预测输出的其他格式保存到 <output-directory>：

--sonify-midi 额外保存 MIDI 文件的 .wav 音频渲染。
--save-model-outputs 额外将原始模型输出保存为 NPZ 文件。
--save-note-events 额外将预测的音符事件保存为 CSV 文件。

如果您想使用非默认模型类型（例如，使用 CoreML 而不是 TF），请使用 --model-serialization 参数。CLI 将更改加载的模型为您首选的类型。

要了解更多参数控制，请运行：

basic-pitch --help

编程使用

predict()

将 basic-pitch 导入到您自己的 Python 代码中，并直接运行 predict 函数，提供 <input-audio-path> 并返回模型的预测结果：

from basic_pitch.inference import predict
from basic_pitch import ICASSP_2022_MODEL_PATH

model_output, midi_data, note_events = predict(<input-audio-path>)

<minimum-frequency> 和 <maximum-frequency>（float 类型）设置模型返回的允许音符频率的最小和最大值，单位为 Hz。频率超出此范围的音高事件将从预测结果中排除。
model_output 是原始模型推理输出
midi_data 是从 model_output 转录的 MIDI 数据
note_events 是从 model_output 派生的音符事件列表

注意：如前所述，ICASSP_2022_MODEL_PATH 将默认为列表中首先支持的运行时：TensorFlow、CoreML、TensorFlowLite、ONNX。

在循环中使用 predict() 要在循环中进行预测，您需要自己加载模型，并将加载好的模型对象提供给predict()函数用于重复的预测调用，以避免冗余和缓慢的模型加载。

import tensorflow as tf

from basic_pitch.inference import predict, Model
from basic_pitch import ICASSP_2022_MODEL_PATH

basic_pitch_model = Model(ICASSP_2022_MODEL_PATH))

for x in range():
    ...
    model_output, midi_data, note_events = predict(
        <循环中的输入音频路径>,
        basic_pitch_model,
    )
    ...

predict_and_save()

如果您希望basic-pitch协调生成和保存我们支持的各种输出文件类型，您可以使用predict_and_save而不是直接使用predict：

from basic_pitch.inference import predict_and_save

predict_and_save(
    <输入音频路径列表>,
    <输出目录>,
    <保存midi>,
    <合成midi>,
    <保存模型输出>,
    <保存音符>,
)