TurnVoice: 革新视频声音转换和翻译的开源工具

TurnVoice

TurnVoice：视频声音转换的新纪元

在当今数字时代，视频内容的创作和编辑变得越来越重要。而声音作为视频的重要组成部分，其质量和多样性直接影响着观众的体验。TurnVoice应运而生，作为一款创新的开源工具，它为视频创作者和编辑者提供了强大的声音转换和翻译功能。

TurnVoice的功能丰富多样，满足了不同用户的需求：

声音转换：利用免费的Coqui TTS引擎，TurnVoice可以实现零成本的声音转换，支持声音克隆，内置58种声音。
多样化声音选择：除了Coqui，TurnVoice还支持Elevenlabs、OpenAI TTS和Azure等流行的TTS引擎，为用户提供更多声音选择。
视频翻译：借助免费的deep-translator，TurnVoice可以零成本将视频翻译成其他语言，如从英语翻译成中文。
AI驱动的说话风格调整：通过提示词，可以让每个句子以独特的说话风格呈现，增添个性化色彩。
精确的渲染控制：用户可以自定义句子文本、时间和声音选择，实现精确的渲染控制。
本地视频处理：支持处理本地视频文件。
背景音频保留：在转换过程中保留原始背景音频。

TurnVoice特性展示

在开始使用TurnVoice之前，需要进行一些准备工作：

硬件要求：推荐使用VRAM大于8GB的Nvidia显卡，并在Python 3.11.4和Windows 10环境下测试通过。
软件环境：
- 安装NVIDIA CUDA Toolkit 11.8
- 安装NVIDIA cuDNN
- 安装Rubberband命令行工具
- 安装ffmpeg命令行工具
- 接受Huggingface的Speaker Diarization和Segmentation模型使用条件
- 设置Huggingface访问令牌环境变量HF_ACCESS_TOKEN
安装TurnVoice：
```
pip install turnvoice
```
CUDA环境配置：为加快渲染速度，可以根据CUDA版本安装对应的PyTorch和torchaudio。

TurnVoice的基本使用方法如下：

turnvoice [-i] <YouTube URL|ID|Local File> [-l] <Translation Language> -e <Engine(s)> -v <Voice(s)> -o <Output File>

例如，使用Arthur Morgan的声音为烹饪教程配音：

turnvoice -i AmC9SmCBUj4 -v arthur.wav -o cooking_with_arthur.mp4

TurnVoice的工作流程主要分为三个步骤：

TurnVoice提供了丰富的参数选项，以满足不同的需求：

更多参数及其用途可以在项目文档中查看。

TurnVoice的翻译功能支持多种语言，使用-l参数指定目标语言。例如，将视频翻译成中文：

turnvoice https://www.youtube.com/watch?v=ZTH771HIhpg -l zh-CN -v daisy

TurnVoice支持多种TTS引擎：

单一说话者替换：首先使用-a参数进行说话者分析，然后用-s参数选择要替换的说话者。
源质量控制：
- 使用清晰的口语内容（如播客、教育视频）效果最佳。
- 声音克隆需要高质量、干净的源WAV文件。
参考WAV文件选择：
- 推荐使用24000、44100或22050 Hz的16位单声道WAV文件，长度为10-30秒。
- 可以使用Audacity调整采样率，并尝试不同的帧率以获得最佳效果。