AudioLDM 2

本仓库目前支持文本到音频(包括音乐)和文本到语音的生成。

<hr>

更新日志

2023-08-27: 新增两个检查点!
- 🌟 48kHz AudioLDM模型: 现在我们支持高保真音频生成!
- 16kHz 改进版AudioLDM模型: 使用更多数据训练并优化了模型架构。

待办事项

添加文本到语音的检查点
开源AudioLDM训练代码
支持生成更长的音频(> 10秒)
优化模型的推理速度
与Diffusers库集成(参见 🧨 Diffusers)
为audioldm_48k检查点添加风格迁移和修复代码(欢迎PR,与AudioLDMv1逻辑相同)

Web应用

准备运行环境

conda create -n audioldm python=3.8; conda activate audioldm
pip3 install git+https://github.com/haoheliu/AudioLDM2.git
git clone https://github.com/haoheliu/AudioLDM2; cd AudioLDM2

启动Web应用(由Gradio提供支持)

python3 app.py

将打印出一个链接。点击链接在浏览器中打开并开始使用。

命令行使用

安装

准备运行环境

# 可选
conda create -n audioldm python=3.8; conda activate audioldm
# 安装AudioLDM
pip3 install git+https://github.com/haoheliu/AudioLDM2.git

如果你计划使用文本到语音生成功能,请确保已安装espeak。在Linux上可以通过以下命令安装:

sudo apt-get install espeak

在命令行中运行模型

根据文本提示生成音效或音乐

audioldm2 -t "夜空中闪烁的音乐星座,形成一段宇宙旋律。"

根据文本列表生成音效或音乐

audioldm2 -tl batch.lst

基于(1)转录文本和(2)说话人描述生成语音

audioldm2 -t "一位充满情感的女性记者正在说话" --transcription "祝你今天过得愉快"

audioldm2 -t "一位女性记者正在说话" --transcription "祝你今天过得愉快"

文本到语音默认使用audioldm2-speech-gigaspeech检查点。如果你想使用LJSpeech预训练检查点运行TTS,只需设置*--model_name audioldm2-speech-ljspeech*。

随机种子很重要

有时在不同硬件上切换时,模型可能表现不佳(声音奇怪或质量低)。在这种情况下,请调整随机种子并找到适合你硬件的最佳值。

audioldm2 --seed 1234 -t "夜空中闪烁的音乐星座,形成一段宇宙旋律。"

预训练模型

你可以通过设置"model_name"来选择模型检查点:

# CUDA
audioldm2 --model_name "audioldm2-full" --device cuda -t "夜空中闪烁的音乐星座,形成一段宇宙旋律。"

# MPS
audioldm2 --model_name "audioldm2-full" --device mps -t "夜空中闪烁的音乐星座,形成一段宇宙旋律。"

我们有五个可供选择的检查点:

audioldm2-full(默认): 使用AudioLDM2架构生成音效和音乐。
audioldm_48k: 该检查点可以生成高保真音效和音乐。
audioldm_16k_crossattn_t5: AudioLDM 1.0的改进版本。
audioldm2-full-large-1150k: audioldm2-full的大型版本。
audioldm2-music-665k: 音乐生成。
audioldm2-speech-gigaspeech(TTS默认): 文本到语音,在GigaSpeech数据集上训练。
audioldm2-speech-ljspeech: 文本到语音,在LJSpeech数据集上训练。

我们目前支持3种设备:

cpu
cuda
mps (注意计算需要约20GB内存)

其他选项

  用法: audioldm2 [-h] [-t TEXT] [-tl TEXT_LIST] [-s SAVE_PATH]
                 [--model_name {audioldm_48k, audioldm_16k_crossattn_t5, audioldm2-full,audioldm2-music-665k,audioldm2-full-large-1150k,audioldm2-speech-ljspeech,audioldm2-speech-gigaspeech}] [-d DEVICE]
                 [-b BATCHSIZE] [--ddim_steps DDIM_STEPS] [-gs GUIDANCE_SCALE] [-n N_CANDIDATE_GEN_PER_TEXT]
                 [--seed SEED]

可选参数: -h, --help 显示此帮助信息并退出 -t TEXT, --text TEXT 用于音频生成的模型文本提示 --transcription TRANSCRIPTION 用于语音合成的转录文本 -tl TEXT_LIST, --text_list TEXT_LIST 包含用于音频生成的模型文本提示的文件 -s SAVE_PATH, --save_path SAVE_PATH 保存模型输出的路径 --model_name {audioldm2-full,audioldm2-music-665k,audioldm2-full-large-1150k,audioldm2-speech-ljspeech,audioldm2-speech-gigaspeech} 你将使用的检查点 -d DEVICE, --device DEVICE 计算设备。如果未指定，脚本将根据你的环境自动选择设备。[cpu, cuda, mps, auto] -b BATCHSIZE, --batchsize BATCHSIZE 同时生成多少个样本 --ddim_steps DDIM_STEPS -dur DURATION, --duration DURATION 样本的持续时间 DDIM的采样步骤 -gs GUIDANCE_SCALE, --guidance_scale GUIDANCE_SCALE 引导比例（较大 => 更好的质量和与文本的相关性；较小 => 更好的多样性） -n N_CANDIDATE_GEN_PER_TEXT, --n_candidate_gen_per_text N_CANDIDATE_GEN_PER_TEXT 自动质量控制。此数字控制候选项的数量（例如，生成三个音频并选择最佳的展示给你）。较大的值通常会导致更好的质量，但计算量更大 --seed SEED 更改此值（任何整数）将导致不同的生成结果。

Hugging Face 🧨 Diffusers

AudioLDM 2 从v0.21.0版本开始在Hugging Face 🧨 Diffusers库中可用。官方检查点可以在Hugging Face Hub上找到，同时还有文档和示例脚本。

Diffusers版本的代码运行速度比原生AudioLDM 2实现快3倍以上，并支持生成任意长度的音频。

要安装🧨 Diffusers和🤗 Transformers，请运行：

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate

然后你可以将预训练权重加载到AudioLDM2管道中，并通过提供文本提示来生成条件音频输出：

from diffusers import AudioLDM2Pipeline
import torch
import scipy

repo_id = "cvssp/audioldm2"
pipe = AudioLDM2Pipeline.from_pretrained(repo_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "具有强烈、欢快节奏和高音旋律的电子音乐。"
audio = pipe(prompt, num_inference_steps=200, audio_length_in_s=10.0).audios[0]

scipy.io.wavfile.write("techno.wav", rate=16000, data=audio)