ai-devices

项目介绍：AI Devices

AI Devices 项目是一个智能语音助手，利用多种人工智能模型和服务来为用户提供智能化的响应。该项目支持语音输入、转录、文本到语音的转换、图像处理以及带条件渲染的UI组件。这一项目的灵感来源于近年来如 Humane AI Pin 和 Rabbit R1 等智能设备的趋势。

功能概览

语音输入和转录：使用 Groq 或 OpenAI 的 Whisper 模型。
文本到语音输出：采用 OpenAI 的TTS模型。
图像处理：通过 OpenAI 的 GPT-4 Vision 或 Fal.ai 的 Llava-Next 模型。
功能调用和条件渲染的UI组件：使用 OpenAI 的 GPT-3.5-Turbo 模型。
可定制的UI设置：包括响应时间、设置切换、文本到语音切换、互联网结果切换和照片上传切换。
（可选）速率限制：通过 Upstash 实现。
（可选）跟踪功能：使用 Langchain 的 LangSmith 进行函数执行跟踪。

设置方法

第一步：克隆代码库

git clone https://github.com/developersdigest/ai-devices.git

第二步：安装依赖

npm install 
# 或者
bun install

第三步：添加 API 密钥

为了使用这个智能语音助手，需要为所选择的AI模型和服务提供必要的 API 密钥。

核心功能所需：
- Groq API Key：用于 Llama + Whisper
- OpenAI API Key：用于 TTS 和 Vision + Whisper
- Serper API Key：用于互联网结果
进阶配置可选项：
- Langchain Tracing：用于函数执行跟踪
- Upstash Redis：用于基于IP的速率限制
- Spotify：与 Spotify API 交互
- Fal.AI (Lllava Image Model)：用作 GPT-4-Vision 的替代视觉模型

将 'API_KEY_GOES_HERE' 替换为每个服务的实际 API 密钥。

第四步：启动开发服务器

npm run dev
# 或者
bun dev

可以通过 http://localhost:3000 或者提供的 URL 访问应用程序。

第五步：部署

配置

通过修改 app/config.tsx 文件来调整智能语音助手的设置和配置。以下是可用选项的大致概览：

export const config = {
    inferenceModelProvider: 'groq', 
    inferenceModel: 'llama3-8b-8192', 
    
    whisperModelProvider: 'openai', 
    whisperModel: 'whisper-1', 

    ttsModelProvider: 'openai',
    ttsModel: 'tts-1',
    ttsvoice: 'alloy',

    visionModelProvider: 'google', 
    visionModel: 'gemini-1.5-flash-latest', 

    functionCallingModelProvider: 'openai',
    functionCallingModel: 'gpt-3.5-turbo',

    enableResponseTimes: false,
    enableSettingsUIToggle: true,
    enableTextToSpeechUIToggle: true,
    enableInternetResultsUIToggle: true,
    enableUsePhotUIToggle: true,
    enabledRabbitMode: true,
    enabledLudicrousMode: true,
    useAttributionComponent: true,

    useRateLimiting: false,

    useLangSmith: true,
};