AudioCraft

文档徽章代码检查徽章测试徽章

AudioCraft是一个用于音频生成深度学习研究的PyTorch库。AudioCraft包含两个最先进的AI生成模型的推理和训练代码，这两个模型可以生成高质量音频：AudioGen和MusicGen。

安装

AudioCraft需要Python 3.9和PyTorch 2.1.0。要安装AudioCraft，可以运行以下命令：

# 最好先确保已安装torch，特别是在安装xformers之前。
# 如果已经安装了PyTorch，请勿运行此命令。
python -m pip install 'torch==2.1.0'
# 在尝试安装软件包之前，可能需要运行以下命令
python -m pip install setuptools wheel
# 然后继续执行以下其中一个命令
python -m pip install -U audiocraft  # 稳定版本
python -m pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft  # 最新版本
python -m pip install -e .  # 或者如果您已克隆仓库到本地（如果要训练，则必须这样做）
python -m pip install -e '.[wm]'  # 如果您想训练水印模型

我们还建议安装ffmpeg，可以通过系统或Anaconda安装：

sudo apt-get install ffmpeg
# 或者如果您使用Anaconda或Miniconda
conda install "ffmpeg<5" -c conda-forge

模型

目前，AudioCraft包含以下模型的训练代码和推理代码：

MusicGen：最先进的可控文本到音乐模型。
AudioGen：最先进的文本到声音模型。
EnCodec：最先进的高保真神经音频编解码器。
Multi Band Diffusion：使用扩散的EnCodec兼容解码器。
MAGNeT：最先进的非自回归文本到音乐和文本到声音模型。
AudioSeal：最先进的音频水印技术。

训练代码

AudioCraft包含用于音频深度学习研究的PyTorch组件和已开发模型的训练流程。关于AudioCraft设计原则的总体介绍和开发自己的训练流程的说明，请参阅AudioCraft训练文档。

要复现现有工作并使用已开发的训练流程，请参阅每个特定模型的说明，其中提供了配置、示例网格以及模型/任务特定信息和常见问题的指引。

API文档

我们为AudioCraft提供了一些API文档。

常见问题

训练代码是否可用？

是的！我们提供了EnCodec、MusicGen和Multi Band Diffusion的训练代码。

模型存储在哪里？

Hugging Face将模型存储在特定位置，可以通过设置AUDIOCRAFT_CACHE_DIR环境变量来覆盖AudioCraft模型的存储位置。要更改其他Hugging Face模型的缓存位置，请查看Hugging Face Transformers文档中的缓存设置。最后，如果您使用依赖Demucs的模型（例如musicgen-melody）并想更改Demucs的下载位置，请参阅Torch Hub文档。

许可证

本仓库中的代码根据LICENSE文件中的MIT许可证发布。
本仓库中的模型权重根据LICENSE_weights文件中的CC-BY-NC 4.0许可证发布。

引用

对于AudioCraft的总体框架，请引用以下内容。

@inproceedings{copet2023simple,
    title={Simple and Controllable Music Generation},
    author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

在引用特定模型时，请按照模型特定README中提到的方式进行引用，例如./docs/MUSICGEN.md、./docs/AUDIOGEN.md等。