VERBI - 语音助手 🎙️

动机 ✨✨✨

欢迎来到语音助手项目！🎙️ 我们的目标是创建一个模块化的语音助手应用程序，让您可以试验各种组件的最先进(SOTA)模型。模块化结构提供了灵活性，使您能够在不同的转录、响应生成和文本转语音(TTS)的SOTA模型之间进行选择。这种方法有利于轻松测试和比较不同的模型，使其成为语音助手技术研究和开发的理想平台。无论您是开发者、研究人员还是爱好者，这个项目都适合您！

特性 🧰

模块化设计：轻松在不同的转录、响应生成和TTS模型之间切换。
支持多个API：集成了OpenAI、Groq和Deepgram API，同时为本地模型预留了位置。
音频录制和播放：从麦克风录制音频并播放生成的语音。
配置管理：集中在config.py中进行配置，便于设置和管理。

项目结构 📂

voice_assistant/
├── voice_assistant/
│   ├── __init__.py
│   ├── audio.py
│   ├── api_key_manager.py
│   ├── config.py
│   ├── transcription.py
│   ├── response_generation.py
│   ├── text_to_speech.py
│   ├── utils.py
│   ├── local_tts_api.py
│   ├── local_tts_generation.py
├── .env
├── run_voice_assistant.py
├── setup.py
├── requirements.txt
└── README.md

设置说明 📋

前提条件 ✅

Python 3.10 或更高版本
虚拟环境（推荐）

逐步说明 🔢

📥 克隆仓库

   git clone https://github.com/PromtEngineer/Verbi.git
   cd Verbi

🐍 设置虚拟环境

使用venv：

    python -m venv venv
    source venv/bin/activate  # 在Windows上使用 `venv\Scripts\activate`

使用conda：

    conda create --name verbi python=3.10
    conda activate verbi

📦 安装所需包

   pip install -r requirements.txt

🛠️ 设置环境变量

在根目录创建一个.env文件并添加您的API密钥：

    OPENAI_API_KEY=your_openai_api_key
    GROQ_API_KEY=your_groq_api_key
    DEEPGRAM_API_KEY=your_deepgram_api_key
    LOCAL_MODEL_PATH=path/to/local/model

🧩 配置模型

编辑config.py以选择您想使用的模型：

    class Config:
        # 模型选择
        TRANSCRIPTION_MODEL = 'groq'  # 选项: 'openai', 'groq', 'deepgram', 'fastwhisperapi' 'local'
        RESPONSE_MODEL = 'groq'       # 选项: 'openai', 'groq', 'ollama', 'local'
        TTS_MODEL = 'deepgram'        # 选项: 'openai', 'deepgram', 'elevenlabs', 'local', 'melotts'

        # API密钥和路径
        OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
        GROQ_API_KEY = os.getenv("GROQ_API_KEY")
        DEEPGRAM_API_KEY = os.getenv("DEEPGRAM_API_KEY")
        LOCAL_MODEL_PATH = os.getenv("LOCAL_MODEL_PATH")

如果您通过Ollama在本地运行LLM，请确保在启动verbi之前Ollama服务器正在运行。

🔊 配置ElevenLabs Jarvis的声音

语音样本在这里。
按照此链接将Jarvis的声音添加到您的ElevenLabs账户。
将声音命名为'Paul J.'，或者如果您更喜欢不同的名称，请确保它与text_to_speech.py文件中的ELEVENLABS_VOICE_ID变量匹配。

🏃 运行语音助手

   python run_voice_assistant.py

🎤 安装FastWhisperAPI

如果您需要本地转录模型，这是可选步骤

克隆仓库
```
   cd..
   git clone https://github.com/3choff/FastWhisperAPI.git
   cd FastWhisperAPI
```
安装所需包：
```
   pip install -r requirements.txt
```
运行API
```
   fastapi run main.py
```
替代设置和运行方法

API也可以直接在Docker容器或Google Colab中运行。

Docker： 构建 Docker 容器：

docker build -t fastwhisperapi .

运行容器

docker run -p 8000:8000 fastwhisperapi

关于 Google Colab 方法，请参阅仓库文档：https://github.com/3choff/FastWhisperAPI/blob/main/README.md

🎤 安装本地 TTS - MeloTTS

如果您需要本地文本转语音模型，这是可选步骤

从 Github 安装 MeloTTS

使用以下链接为您的操作系统安装 MeloTTS。

一旦软件包安装在您的本地虚拟环境中，您可以使用以下命令启动 API 服务器。
```
python voice_assistant/local_tts_api.py
```
local_tts_api.py 文件实现了一个 fastapi 服务器，它将监听传入的文本并使用 MeloTTS 模型生成音频。为了使用本地 TTS 模型，您需要更新 config.py 文件，设置：
```
TTS_MODEL = 'melotts'        # 选项：'openai'、'deepgram'、'elevenlabs'、'local'、'melotts'
```
您可以运行主文件开始使用带有本地模型的 verbi。