AudioSR：大规模通用音频超分辨率

输入您的音频，AudioSR将使其高保真！

适用于所有类型的音频（如音乐、语音、狗叫声、下雨声等）和所有采样率。

在我们的Discord频道分享您的想法/样本/问题：https://discord.gg/HWeBsJryaf

图片描述

更新日志

2023-09-24：添加Replicate演示（@nateraw）；修复Windows上的错误、librosa警告等（@ORI-Muchim）。
2023-09-16：修复直流偏移问题。修复持续时间填充错误。更新默认DDIM步骤为50。

Gradio演示

在本地运行Gradio演示：

安装依赖：pip install -r requirements.txt
运行应用：python app.py
打开显示的URL以查看演示

命令行使用

安装

# 可选
conda create -n audiosr python=3.9; conda activate audiosr
# 安装AudioLDM
pip3 install audiosr==0.0.7
# 或
# pip3 install git+https://github.com/haoheliu/versatile_audio_super_resolution.git

使用方法

处理文件列表。结果默认保存在./output。

audiosr -il batch.lst

处理单个音频文件。

audiosr -i example/music.wav

完整使用说明

> audiosr -h

> usage: audiosr [-h] -i INPUT_AUDIO_FILE [-il INPUT_FILE_LIST] [-s SAVE_PATH] [--model_name {basic,speech}] [-d DEVICE] [--ddim_steps DDIM_STEPS] [-gs GUIDANCE_SCALE] [--seed SEED]

可选参数：
  -h, --help            显示此帮助信息并退出
  -i INPUT_AUDIO_FILE, --input_audio_file INPUT_AUDIO_FILE
                        用于音频超分辨率的输入音频文件
  -il INPUT_FILE_LIST, --input_file_list INPUT_FILE_LIST
                        包含所有需要进行音频超分辨率处理的音频文件的文件
  -s SAVE_PATH, --save_path SAVE_PATH
                        保存模型输出的路径
  --model_name {basic,speech}
                        您将使用的检查点
  -d DEVICE, --device DEVICE
                        计算设备。如果未指定，脚本将根据您的环境自动选择设备。
  --ddim_steps DDIM_STEPS
                        DDIM的采样步骤
  -gs GUIDANCE_SCALE, --guidance_scale GUIDANCE_SCALE
                        引导尺度（大 => 更好的质量和与文本的相关性；小 => 更好的多样性）
  --seed SEED           更改此值（任何整数）将导致不同的生成结果。
  --suffix SUFFIX       输出文件的后缀

待办事项

添加Gradio演示。
优化推理速度。

引用我们的工作

如果您觉得本仓库有用，请考虑引用：

@article{liu2023audiosr,
  title={{AudioSR}: Versatile Audio Super-resolution at Scale},
  author={Liu, Haohe and Chen, Ke and Tian, Qiao and Wang, Wenwu and Plumbley, Mark D},
  journal={arXiv preprint arXiv:2309.07314},
  year={2023}
}