<div align="center"> <h1> SLAM-LLM </h1> <p> <b>SLAM-LLM</b>是一个深度学习工具包，允许研究人员和开发者训练自定义的多模态大语言模型（MLLM），专注于<b>语</b>音、<b>语</b>言、<b>音</b>频、<b>音</b>乐处理。我们提供详细的训练方法和高性能的推理检查点。<br> </p> <p> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/37030684-7e13-4616-9c86-671d1b80dbff.jpg" alt="SLAM-LLM标志" style="width: 200px; height: 200px;"> </p> <p> </p> <a href="https://github.com/ddlBoJack/SLAM-LLM"><img src="https://img.shields.io/badge/平台-linux-lightgrey" alt="版本"></a> <a href="https://github.com/ddlBoJack/SLAM-LLM"><img src="https://img.shields.io/badge/Cuda-11.8+-orange" alt="版本"></a> <a href="https://github.com/ddlBoJack/SLAM-LLM"><img src="https://img.shields.io/badge/PyTorch-2.01+-brightgreen" alt="python"></a> <a href="https://github.com/ddlBoJack/SLAM-LLM"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/05c07adf-f1df-46af-b58c-3342fb567e51.svg" alt="mit"></a> </div>

新闻

[2024年6月12日更新] 已支持MaLa-ASR的方法。
[征集示例] 我们诚挚邀请开发者和研究人员基于SLAM-LLM开发新应用、进行学术研究，并提交您的示例！我们也欢迎工程方面的PR（如改进和加速多节点训练）。
[2024年5月22日更新] 请加入slack或微信群。我们将在这里同步更新和问答。
[2024年5月21日更新] 已支持空间音频理解的方法。
[2024年5月20日更新] 已支持音乐描述（MC）的方法。
[2024年5月8日更新] 已支持视觉语音识别（VSR）的方法。
[2024年5月4日更新] 已支持零样本文本转语音（TTS）的方法。
[2024年4月28日更新] 已支持自动音频描述（AAC）的方法。
[2024年3月31日更新] 已支持自动语音识别（ASR）的方法。

安装

git clone https://github.com/huggingface/transformers.git
cd transformers
git checkout tags/v4.35.2
pip install -e .
cd ..
git clone https://github.com/huggingface/peft.git
cd peft
git checkout tags/v0.6.0
pip install -e .
cd ..
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
git clone https://github.com/ddlBoJack/SLAM-LLM.git
cd SLAM-LLM
pip install  -e .

对于某些示例，您可能需要使用fairseq，命令行如下：

# 在安装SLAM-LLM之前，您需要先安装fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install --editable ./

我们还提供了一个docker镜像以方便使用：

# 构建docker镜像
docker build -t slam-llm:latest .

# 使用GPU运行docker镜像
docker run -it --gpus all --name slam --shm-size=256g slam-llm:latest /bin/bash

使用方法

方案列表

我们提供了各种基于LLM的语音、音频和音乐任务的参考实现：

配置优先级

我们提供了以下层次化配置继承关系：

命令行（shell文件）> Hydra配置（yaml文件）> 数据类配置（Python文件）

特性

易于扩展到新模型和任务。
提供详细的训练方案和用于推理的高性能检查点。
混合精度训练，在NVIDIA张量核心上可以更快速地训练，同时使用更少的GPU内存。
支持数据并行和模型并行的多GPU训练，包括DDP、FSDP和deepspeed（仍需改进）。
基于Hydra和dataclass的灵活配置，允许代码、命令行和基于文件的配置组合。

致谢

我们借鉴了Llama-Recipes的训练过程代码。
我们借鉴了Fairseq的deepspeed配置代码。
我们感谢贡献者提供的各种方案。

引用

@article{ma2024embarrassingly,
  title={An Embarrassingly Simple Approach for LLM with Strong ASR Capacity},
  author={Ma, Ziyang and Yang, Guanrou and Yang, Yifan and Gao, Zhifu and Wang, Jiaming and Du, Zhihao and Yu, Fan and Chen, Qian and Zheng, Siqi and Zhang, Shiliang and others},
  journal={arXiv preprint arXiv:2402.08846},
  year={2024}
}