Qwen2-Audio

<a href="README_CN.md">中文</a> &nbsp｜ &nbsp English&nbsp&nbsp <img src="https://yellow-cdn.veclightyear.com/835a84d5/bf281490-b782-48df-8c5e-c6b48e70c8eb.png" width="400"/> Qwen2-Audio-7B <a href="https://modelscope.cn/models/qwen/Qwen2-Audio-7B">🤖 </a> | <a href="https://huggingface.co/Qwen/Qwen2-Audio-7B">🤗</a>&nbsp ｜ Qwen-Audio-7B-Instruct <a href="https://modelscope.cn/models/qwen/Qwen2-Audio-7B-Instruct">🤖 </a>| <a href="https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct">🤗</a>&nbsp ｜ Demo<a href="https://modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo"> 🤖</a> | <a href="https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo">🤗</a>&nbsp 📑 <a href="https://arxiv.org/abs/2407.10759">论文</a> &nbsp&nbsp | &nbsp&nbsp 📑 <a href="https://qwenlm.github.io/blog/qwen2-audio">博客</a> &nbsp&nbsp | &nbsp&nbsp 💬 <a href="https://github.com/QwenLM/Qwen/blob/main/assets/wechat.png">微信</a>&nbsp&nbsp | &nbsp&nbsp <a href="https://discord.gg/CV4E9rpNSD">Discord</a>&nbsp&nbsp

我们介绍了Qwen-Audio的最新进展，一个名为Qwen2-Audio的大规模音频-语言模型，它能够接受各种音频信号输入，并根据语音指令进行音频分析或直接给出文本回应。我们引入了两种不同的音频交互模式：

语音聊天：用户可以与Qwen2-Audio自由进行语音交互，无需文本输入；
音频分析：用户可以在交互过程中提供音频和文本指令进行分析；

我们发布了Qwen2-Audio系列的两个模型：Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct。

架构

Qwen2-Audio的三阶段训练过程概览。

新闻和更新

2024年8月9日 🎉 我们在ModelScope和Hugging Face上发布了Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct的检查点。
2024年7月15日 🎉 我们发布了Qwen2-Audio的论文，介绍了相关模型结构、训练方法和模型性能。详情请查看我们的报告！
2023年11月30日 🔥 我们发布了Qwen-Audio系列。

评估

我们在以下13个标准基准测试上评估了Qwen2-Audio的能力：

<table><thead><tr><th>任务</th><th>描述</th><th>数据集</th><th>划分</th><th>指标</th></tr></thead><tbody><tr><td rowspan="4">ASR</td><td rowspan="4">自动语音识别</td><td>Fleurs</td><td>dev | test</td><td rowspan="4">WER</td></tr><tr><td>Aishell2</td><td>test</td></tr><tr><td>Librispeech</td><td>dev | test</td></tr><tr><td>Common Voice</td><td>dev | test</td></tr><tr><td>S2TT</td><td>语音到文本翻译</td><td>CoVoST2</td><td>test</td><td>BLEU </td></tr><tr><td>SER</td><td>语音情感识别</td><td>Meld</td><td>test</td><td>ACC</td></tr><tr><td>VSC</td><td>声音分类</td><td>VocalSound</td><td>test</td><td>ACC</td></tr><tr><td rowspan="4"><a href="https://github.com/OFA-Sys/AIR-Bench">AIR-Bench</a> </td><td>语音聊天基准</td><td>Fisher SpokenWOZ IEMOCAP Common voice</td><td>dev | test</td><td>GPT-4评估</td></tr><tr><td>声音聊天基准</td><td>Clotho</td><td>dev | test</td><td>GPT-4评估</td></tr> <tr><td>音乐聊天基准</td><td>MusicCaps</td><td>dev | test</td><td>GPT-4评估</td></tr><tr><td>混合音频聊天基准</td><td>Common voice AudioCaps MusicCaps</td><td>dev | test</td><td>GPT-4评估</td></tr></tbody></table>

以下是总体性能：

评估的详细信息如下： （注：我们呈现的评估结果基于原始训练框架的初始模型。然而，在将框架转换为Huggingface后，分数出现了一些波动。在此，我们从论文中的初始模型结果开始，呈现我们的完整评估结果。）

<table><thead><tr><th rowspan="2">任务</th><th rowspan="2">数据集</th><th rowspan="2">模型</th><th colspan="2">性能</th></tr><tr><th>指标</th><th>结果</th></tr></thead><tbody><tr><td rowspan="15">语音识别</td><td rowspan="7">Librispeech dev-clean | dev-other | test-clean | test-other</td><td>SpeechT5</td><td rowspan="7">词错误率 </td><td>2.1 | 5.5 | 2.4 | 5.8</td></tr><tr><td>SpeechNet</td><td>- | - | 30.7 | -</td></tr><tr><td>SLM-FT</td><td>- | - | 2.6 | 5.0</td></tr><tr><td>SALMONN</td><td>- | - | 2.1 | 4.9</td></tr><tr><td>SpeechVerse</td><td>- | - | 2.1 | 4.4</td></tr><tr><td>Qwen-Audio</td><td>1.8 | 4.0 | 2.0 | 4.2</td></tr><tr><td>Qwen2-Audio</td><td>1.3 | 3.4 | 1.6 | 3.6</td></tr><tr><td rowspan="2">Common Voice 15 英语 | 中文 | 粤语 | 法语</td><td>Whisper-large-v3</td><td rowspan="2">词错误率 </td><td>9.3 | 12.8 | 10.9 | 10.8</td></tr><tr><td>Qwen2-Audio</td><td>8.6 | 6.9 | 5.9 | 9.6</td></tr> <tr><td rowspan="2">Fleurs 中文</td><td>Whisper-large-v3</td><td rowspan="2">词错误率 </td><td>7.7</td></tr><tr><td>Qwen2-Audio</td><td>7.5</td></tr><tr><td rowspan="4">Aishell2 麦克风 | iOS | Android</td><td>MMSpeech-base</td><td rowspan="4">词错误率 </td><td>4.5 | 3.9 | 4.0</td></tr><tr><td>Paraformer-large</td><td>- | 2.9 | -</td></tr><tr><td>Qwen-Audio</td><td>3.3 | 3.1 | 3.3</td></tr><tr><td>Qwen2-Audio</td><td>3.0 | 3.0 | 2.9</td></tr><tr><td rowspan="8">语音翻译</td><td rowspan="5">CoVoST2 英德 | 德英 | 英中 | 中英</td><td>SALMONN</td><td rowspan="5">BLEU </td><td>18.6 | - | 33.1 | -</td></tr><tr><td>SpeechLLaMA</td><td>- | 27.1 | - | 12.3</td></tr><tr><td>BLSP</td><td>14.1 | - | - | -</td></tr><tr><td>Qwen-Audio</td><td>25.1 | 33.9 | 41.5 | 15.7</td></tr><tr><td>Qwen2-Audio</td><td>29.9 | 35.2 | 45.2 | 24.4</td></tr> <tr><td rowspan="3">CoVoST2 西英 | 法英 | 意英 |</td><td>SpeechLLaMA</td><td rowspan="3">BLEU </td><td>27.9 | 25.2 | 25.9</td></tr><tr><td>Qwen-Audio</td><td>39.7 | 38.5 | 36.0</td></tr><tr><td>Qwen2-Audio</td><td>40.0 | 38.5 | 36.3</td></tr><tr><td rowspan="3">语音情感识别</td><td rowspan="3">Meld</td><td>WavLM-large</td><td rowspan="3">准确率 </td><td>0.542</td></tr><tr><td>Qwen-Audio</td><td>0.557</td></tr><tr><td>Qwen2-Audio</td><td>0.553</td></tr><tr><td rowspan="4">声音分类</td><td rowspan="4">VocalSound</td><td>CLAP</td><td rowspan="4">准确率 </td><td>0.4945</td></tr><tr><td>Pengi</td><td>0.6035</td></tr><tr><td>Qwen-Audio</td><td>0.9289</td></tr><tr><td>Qwen2-Audio</td><td>0.9392</td></tr> <tr><td>AIR-Bench </td><td>对话基准 语音 | 声音 | 音乐 | 混合音频</td><td>SALMONN BLSP Pandagpt Macaw-LLM SpeechGPT Next-gpt Qwen-Audio Gemini-1.5-pro Qwen2-Audio</td><td>GPT-4 </td><td>6.16 | 6.28 | 5.95 | 6.08 6.17 | 5.55 | 5.08 | 5.33 3.58 | 5.46 | 5.06 | 4.25 0.97 | 1.01 | 0.91 | 1.01 1.57 | 0.95 | 0.95 | 4.13 3.86 | 4.76 | 4.18 | 4.13 6.47 | 6.95 | 5.52 | 6.08 6.97 | 5.49 | 5.06 | 5.27 7.18 | 6.99 | 6.79 | 6.77</td></tr></tbody></table>

（第二个是转换为Hugging Face后的结果） <表格><thead><tr><th rowspan="2">任务</th><th rowspan="2">数据集</th><th rowspan="2">模型</th><th colspan="2">性能</th></tr><tr><th>指标</th><th>结果</th></tr></thead><tbody><tr><td rowspan="15">语音识别</td><td rowspan="7">Librispeech dev-clean | dev-other | test-clean | test-other</td><td>SpeechT5</td><td rowspan="7">词错率</td><td>2.1 | 5.5 | 2.4 | 5.8</td></tr><tr><td>SpeechNet</td><td>- | - | 30.7 | -</td></tr><tr><td>SLM-FT</td><td>- | - | 2.6 | 5.0</td></tr><tr><td>SALMONN</td><td>- | - | 2.1 | 4.9</td></tr><tr><td>SpeechVerse</td><td>- | - | 2.1 | 4.4</td></tr><tr><td>Qwen-Audio</td><td>1.8 | 4.0 | 2.0 | 4.2</td></tr><tr><td>Qwen2-Audio</td><td>1.7 | 3.6 | 1.7 | 4.0</td></tr><tr><td rowspan="2">Common Voice 15 英语 | 中文 | 粤语 | 法语</td><td>Whisper-large-v3</td><td rowspan="2">词错率</td><td>9.3 | 12.8 | 10.9 | 10.8</td></tr><tr><td>Qwen2-Audio</td><td>8.7 | 6.5 | 5.9 | 9.6</td></tr>

<tr><td rowspan="2">Fleurs 中文</td><td>Whisper-large-v3</td><td rowspan="2">词错率</td><td>7.7</td></tr><tr><td>Qwen2-Audio</td><td>7.0</td></tr><tr><td rowspan="4">Aishell2 麦克风 | iOS | Android</td><td>MMSpeech-base</td><td rowspan="4">词错率</td><td>4.5 | 3.9 | 4.0</td></tr><tr><td>Paraformer-large</td><td>- | 2.9 | -</td></tr><tr><td>Qwen-Audio</td><td>3.3 | 3.1 | 3.3</td></tr><tr><td>Qwen2-Audio</td><td>3.2 | 3.1 | 2.9</td></tr><tr><td rowspan="8">语音翻译</td><td rowspan="5">CoVoST2 英德 | 德英 | 英中 | 中英</td><td>SALMONN</td><td rowspan="5">BLEU</td><td>18.6 | - | 33.1 | -</td></tr><tr><td>SpeechLLaMA</td><td>- | 27.1 | - | 12.3</td></tr><tr><td>BLSP</td><td>14.1 | - | - | -</td></tr><tr><td>Qwen-Audio</td><td>25.1 | 33.9 | 41.5 | 15.7</td></tr><tr><td>Qwen2-Audio</td><td>29.6 | 33.6 | 45.6 | 24.0</td></tr> <tr><td rowspan="3">CoVoST2 西英 | 法英 | 意英 |</td><td>SpeechLLaMA</td><td rowspan="3">BLEU</td><td>27.9 | 25.2 | 25.9</td></tr><tr><td>Qwen-Audio</td><td>39.7 | 38.5 | 36.0</td></tr><tr><td>Qwen2-Audio</td><td>38.7 | 37.2 | 35.2</td></tr><tr><td rowspan="3">语音情感识别</td><td rowspan="3">Meld</td><td>WavLM-large</td><td rowspan="3">准确率</td><td>0.542</td></tr><tr><td>Qwen-Audio</td><td>0.557</td></tr><tr><td>Qwen2-Audio</td><td>0.535</td></tr><tr><td rowspan="4">声音分类</td><td rowspan="4">VocalSound</td><td>CLAP</td><td rowspan="4">准确率</td><td>0.4945</td></tr><tr><td>Pengi</td><td>0.6035</td></tr><tr><td>Qwen-Audio</td><td>0.9289</td></tr><tr><td>Qwen2-Audio</td><td>0.9395</td></tr> <tr><td>AIR-Bench </td><td>对话基准 语音 | 声音 | 音乐 | 混合音频</td><td>SALMONN BLSP Pandagpt Macaw-LLM SpeechGPT Next-gpt Qwen-Audio Gemini-1.5-pro Qwen2-Audio</td><td>GPT-4</td><td>6.16 | 6.28 | 5.95 | 6.08 6.17 | 5.55 | 5.08 | 5.33 3.58 | 5.46 | 5.06 | 4.25 0.97 | 1.01 | 0.91 | 1.01 1.57 | 0.95 | 0.95 | 4.13 3.86 | 4.76 | 4.18 | 4.13 6.47 | 6.95 | 5.52 | 6.08 6.97 | 5.49 | 5.06 | 5.27 7.24 | 6.83 | 6.73 | 6.42</td></tr></tbody></表格>

我们提供了所有评估脚本以复现我们的结果。详情请参阅 eval_audio/EVALUATION.md。

环境要求

Qwen2-Audio 的代码已包含在最新的 Hugging Face transformers 中，我们建议您使用以下命令从源代码安装：pip install git+https://github.com/huggingface/transformers，否则您可能会遇到以下错误：

KeyError: 'qwen2-audio'

快速开始

以下我们提供简单的示例，展示如何使用 🤗 Transformers 来使用 Qwen2-Audio 和 Qwen2-Audio-Instruct。在运行代码之前，请确保您已设置好环境并安装了所需的软件包。请确保您满足上述要求，然后安装依赖库。现在您可以开始使用 ModelScope 或 Transformers。Qwen2-Audio 模型目前对 30 秒以内的音频片段表现最佳。

🤗 Transformers

在下面，我们演示如何使用 Qwen2-Audio-7B-Instruct 进行推理，支持语音聊天和音频分析两种模式。请注意，我们使用了 ChatML 格式进行对话，在这个演示中我们展示了如何利用 apply_chat_template 来实现这一目的。

语音聊天推理

在语音聊天模式下，用户可以与 Qwen2-Audio 自由进行语音交互，无需文本输入：

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct")
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct", device_map="auto")
conversation = [
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/guess_age_gender.wav"},
    ]},
    {"role": "assistant", "content": "是的，说话者是二十多岁的女性。"},
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/translate_to_chinese.wav"},
    ]},
]
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios = []
for message in conversation:
    if isinstance(message["content"], list):
        for ele in message["content"]:
            if ele["type"] == "audio":
                audios.append(librosa.load(
                    BytesIO(urlopen(ele['audio_url']).read()), 
                    sr=processor.feature_extractor.sampling_rate)[0]
                )

inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
inputs.input_ids = inputs.input_ids.to("cuda")

generate_ids = model.generate(**inputs, max_length=256)
generate_ids = generate_ids[:, inputs.input_ids.size(1):]

response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

音频分析推理

在音频分析中，用户可以同时提供音频和文本指令进行分析：

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct")
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct", device_map="auto")

conversation = [
    {'role': 'system', 'content': '你是一个有用的助手。'}, 
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"},
        {"type": "text", "text": "那是什么声音？"},
    ]},
    {"role": "assistant", "content": "那是玻璃碎裂的声音。"},
    {"role": "user", "content": [
        {"type": "text", "text": "当你听到这种声音时你会怎么做？"},
    ]},
    {"role": "assistant", "content": "保持警惕和谨慎，检查是否有人受伤或财产损坏。"},
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/1272-128104-0000.flac"},
        {"type": "text", "text": "这个人说了什么？"},
    ]},
]
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios = []
for message in conversation:
    if isinstance(message["content"], list):
        for ele in message["content"]:
            if ele["type"] == "audio":
                audios.append(
                    librosa.load(
                        BytesIO(urlopen(ele['audio_url']).read()), 
                        sr=processor.feature_extractor.sampling_rate)[0]
                )

inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
inputs.input_ids = inputs.input_ids.to("cuda")

generate_ids = model.generate(**inputs, max_length=256)
generate_ids = generate_ids[:, inputs.input_ids.size(1):]

response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

批量推理

我们还支持批量推理：

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct")
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B-Instruct", device_map="auto")

conversation1 = [
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"},
        {"type": "text", "text": "那是什么声音？"},
    ]},
    {"role": "assistant", "content": "那是玻璃碎裂的声音。"},
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/f2641_0_throatclearing.wav"},
        {"type": "text", "text": "你听到了什么？"},
    ]}
]

conversation2 = [
    {"role": "user", "content": [
        {"type": "audio", "audio_url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/1272-128104-0000.flac"},
        {"type": "text", "text": "这个人说了什么？"},
    ]},
]

conversations = [conversation1, conversation2]

text = [processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False) for conversation in conversations]

audios = []
for conversation in conversations:
    for message in conversation:
        if isinstance(message["content"], list):
            for ele in message["content"]:
                if ele["type"] == "audio":
                    audios.append(
                        librosa.load(
                            BytesIO(urlopen(ele['audio_url']).read()), 
                            sr=processor.feature_extractor.sampling_rate)[0]
                    )

inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
inputs['input_ids'] = inputs['input_ids'].to("cuda")
inputs.input_ids = inputs.input_ids.to("cuda")

generate_ids = model.generate(**inputs, max_length=256)
generate_ids = generate_ids[:, inputs.input_ids.size(1):]

response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)

运行Qwen2-Audio预训练基础模型也很简单。

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)

prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>用英语生成描述："
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

🤖 ModelScope

我们强烈建议用户特别是中国大陆的用户使用ModelScope。snapshot_download可以帮助你解决下载检查点的问题。

演示

Web UI

我们提供了代码让用户构建Web UI演示。在开始之前，请确保安装以下包：

pip install -r requirements_web_demo.txt

然后运行以下命令并点击生成的链接：

python demo/web_demo_audio.py

演示案例

更多令人印象深刻的案例将在我们的博客Qwen的博客上更新。

我们正在招聘

如果你有兴趣作为全职或实习生加入我们，请联系我们：qwen_audio@list.alibaba-inc.com。

许可协议

查看每个模型在其HF仓库内的许可证。你无需提交商业使用请求。

引用

如果你发现我们的论文和代码对你的研究有用，请考虑给一个星标 :star: 和引用 :pencil: :)

@article{Qwen-Audio,
  title={Qwen-Audio: 通过统一的大规模音频-语言模型推进通用音频理解},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}

@article{Qwen2-Audio,
  title={Qwen2-Audio 技术报告},
  author={楚云飞 and 徐进 and 杨乾 and 魏浩杰 and 魏希品 and 郭志芳 and 冷一冲 and 吕远军 and 何金正 and 林俊阳 and 周畅 and 周靖人},
  journal={arXiv预印本 arXiv:2407.10759},
  year={2024}
}

联系我们

如果您想给我们的研究团队或产品团队留言，欢迎发送邮件至 qianwen_opensource@alibabacloud.com。