ultravox-v0_4

Ultravox-v0_4 项目介绍

项目背景

Ultravox 是一款多模态语言模型（LLM），其核心是预训练的Llama3.1-8B-Instruct和Whisper-medium模型。Ultravox 能够处理语音和文本两种输入，用户可以通过文本提示和音频消息与之交互。

项目特点

Ultravox 能够将输入的语音信息转化为模型可理解的嵌入，并将其与文本信息结合，生成相应的文本输出。未来的版本计划扩展词汇量，以支持语义和声学音频符号的生成，这些符号可用于语音编码器以产生音频输出。

Ultravox 的开发者为Fixie.ai，当前版本在没有进行偏好调整的情况下以MIT开源许可发布。

模型来源

项目的详细代码和更多信息可以通过 Ultravox 官方网站获取。

使用说明

Ultravox 可用作语音代理以及语音翻译、语音分析等多种场景。用户通过安装相关依赖库transformers 和 librosa，可以调用Ultravox的功能。以下是一个简单的使用示例：

# 安装必要的Python包
# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

# 初始化模型管道
pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4', trust_remote_code=True)

# 加载音频文件
path = "<path-to-input-audio>"  # TODO: 将音频路径替换为实际路径
audio, sr = librosa.load(path, sr=16000)

# 设定对话输入
turns = [
  {
    "role": "system",
    "content": "你是一个友好且乐于助人的角色。你喜欢为人们回答问题。"
  },
]
# 调用模型生成输出
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)