WhisperFusion

<h2 align="center"> <a href="https://www.youtube.com/watch?v=_PnaP0AQJnk"><img src="https://img.youtube.com/vi/_PnaP0AQJnk/0.jpg" style="background-color:rgba(0,0,0,0);" height=300 alt="WhisperFusion"></a> <br><br>与AI进行无缝对话（超低延迟）<br><br> </h2>

欢迎使用WhisperFusion。WhisperFusion在WhisperLive和WhisperSpeech的基础上，通过在实时语音转文本管道之上集成Mistral大型语言模型（LLM），进一步扩展了其功能。LLM和Whisper都经过优化，可作为TensorRT引擎高效运行，最大化性能和实时处理能力。同时，WhisperSpeech通过torch.compile进行了优化。

特性

实时语音转文本：利用OpenAI WhisperLive实时将口语转换为文本。
大型语言模型集成：添加Mistral大型语言模型，增强对转录文本的理解和上下文把握。
TensorRT优化：LLM和Whisper都经过优化，作为TensorRT引擎运行，确保高性能和低延迟处理。
torch.compile：WhisperSpeech使用torch.compile加速推理，通过JIT编译PyTorch代码为优化内核，提高PyTorch代码运行速度。

硬件要求

至少24GB RAM的GPU
为获得最佳延迟，GPU的FP16（半精度）TFLOPS应与RTX 4090相近。RTX 4090的硬件规格可供参考。

演示在单个RTX 4090 GPU上运行。WhisperFusion使用Nvidia TensorRT-LLM库为流行的LLM模型提供CUDA优化版本。TensorRT-LLM支持多GPU，因此在多GPU上运行WhisperFusion以获得更好性能应该是可行的。

开始使用

我们提供了Docker Compose设置，简化预构建TensorRT-LLM docker容器的部署。此设置包括转换为TensorRT引擎的Whisper和Phi，以及预下载的WhisperSpeech模型，以便快速开始与WhisperFusion交互。此外，我们还包含了Web GUI的简单Web服务器。

使用docker compose构建和运行

mkdir docker/scratch-space
cp docker/scripts/build-* docker/scripts/run-whisperfusion.sh docker/scratch-space/

docker compose build
export MODEL=Phi-3-mini-4k-instruct    #Phi-3-mini-128k-instruct或phi-2，默认WhisperFusion使用phi-2
docker compose up