whisper-node

项目介绍：whisper-node

whisper-node 是一个用于 OpenAI 的 Whisper 模型的 Node.js 绑定库。这个工具允许用户在本地进行音频转录，并且支持多种输出格式。以下是对该项目的详细介绍。

功能特点

多格式输出：whisper-node 能够将转录后的音频输出为 JSON 格式，同时也支持 .txt、.srt 和 .vtt 格式，以满足不同用户的需求。
CPU 优化：该工具进行了 CPU 优化，能够在不同平台上高效运行，包括 Apple Silicon ARM。
精准的时间戳：提供每个单词的时间戳，使得转录结果更为详细。

安装指南

使用 whisper-node 非常简单：

将其添加到项目依赖中：
```
npm install whisper-node
```
可选步骤：下载所需的 whisper 模型：
```
npx whisper-node download
```

注意：在 Windows 系统下，需要从指定网址安装 make 命令。

使用方法

使用 whisper-node 的方式简单明了，以下是一个基本的用例：

import whisper from 'whisper-node';

const transcript = await whisper("example/sample.wav");

console.log(transcript); // 输出: [ {start,end,speech} ]

输出格式（JSON）

whisper-node 的输出结果包括开始时间、结束时间和转录的文字信息，例如：

[
  {
    "start":  "00:00:14.310", // 开始时间
    "end":    "00:00:16.480", // 结束时间
    "speech": "howdy"         // 转录内容
  }
]

完整的选项列表

whisper-node 提供了一些可选参数以支持不同的使用场景：

import whisper from 'whisper-node';

const filePath = "example/sample.wav"; // 必需

const options = {
  modelName: "base.en",       // 默认模型名称
  whisperOptions: {
    language: 'auto',         // 语言自动检测（默认为自动）
    gen_file_txt: false,      // 是否输出 .txt 文件
    gen_file_subtitle: false, // 是否输出 .srt 文件
    gen_file_vtt: false,      // 是否输出 .vtt 文件
    word_timestamps: true     // 每个单词是否有时间戳
  }
}

const transcript = await whisper(filePath, options);

输入文件格式

whisper-node 目前只接受 .wav 格式的音频文件，且采样率为 16Hz。用户可以通过 FFmpeg 转换其他格式的音频文件，例如将 .mp3 转换为 .wav：

ffmpeg -i input.mp3 -ar 16000 output.wav

创建过程

[Whisper OpenAI (使用 ggerganov 的 C++ 版本移植)]
[ShellJS]

项目规划

已支持非 Typescript 项目
允许自定义目录存储模型
计划的功能包括：
- 增加配置文件作为模型下载线程序的替代方案
- 移除 Path、ShellJS 和 Prompt-Sync 包，以实现浏览器、React-Native Expo 和 WebAssembly 的兼容性
- 使用 Fluent-FFmpeg 自动转换为16Hz .wav文件，同时支持从视频中分离音频
- Pyannote diarization 用于识别说话者
- 实现 WhisperX 作为可选的替代模型，用于更高精度的时间戳和说话者识别
- 提供查看检测语言的选项
- 包含 TypeScript 类型文件
- 添加对音频流转录支持