Edge-TTS: 使用Microsoft Edge的在线文本转语音服务

edge-tts

Edge-TTS:轻松实现高质量文本转语音

在当今数字化时代,文本转语音(TTS)技术已经成为许多应用程序和服务的重要组成部分。无论是为视障人士提供辅助功能,还是为用户提供更丰富的交互体验,TTS都发挥着越来越重要的作用。而在众多TTS解决方案中,Edge-TTS凭借其简单易用和高质量输出,正受到越来越多开发者的青睐。

Edge-TTS简介

Edge-TTS是一个开源的Python模块,它允许用户直接使用Microsoft Edge的在线文本转语音服务,而无需安装Microsoft Edge浏览器、Windows操作系统,也不需要任何API密钥。这个项目由GitHub用户rany2开发和维护,目前在GitHub上已经获得了超过5100颗星星,显示出其受欢迎程度。

Edge-TTS的主要优势在于:

简单易用:提供命令行工具和Python API,使用门槛低
高质量语音:利用Microsoft Edge的先进TTS技术,生成自然流畅的语音
多语言支持:支持多种语言和声音选项
无需额外依赖:不需要安装Microsoft Edge或Windows系统
免费使用:无需API密钥,可以免费使用Microsoft的TTS服务

安装和基本使用

要开始使用Edge-TTS,首先需要通过pip安装:

pip install edge-tts

安装完成后,可以直接在命令行中使用edge-tts命令:

edge-tts --text "你好,世界!" --write-media hello.mp3 --write-subtitles hello.vtt

这个命令会将"你好,世界!"转换为语音,并将音频保存为hello.mp3文件,同时生成对应的字幕文件hello.vtt。

如果想要立即播放生成的语音,可以使用edge-playback命令:

edge-playback --text "你好,世界!"

注意,使用edge-playback需要安装mpv命令行播放器。

高级功能

Edge-TTS不仅提供了基本的文本转语音功能,还支持许多高级特性,使其能够满足各种复杂的应用场景。

1. 更换语音

Edge-TTS支持多种语言和声音选项。要查看可用的声音列表,可以使用以下命令:

edge-tts --list-voices

然后,可以使用--voice参数指定想要使用的声音:

edge-tts --voice ar-EG-SalmaNeural --text "مرحبا كيف حالك؟" --write-media hello_in_arabic.mp3

2. 调整语音参数

Edge-TTS允许用户调整生成语音的速率、音量和音调:

edge-tts --rate=-50% --text "Hello, world!" --write-media hello_with_rate_halved.mp3
edge-tts --volume=-50% --text "Hello, world!" --write-media hello_with_volume_halved.mp3
edge-tts --pitch=-50Hz --text "Hello, world!" --write-media hello_with_pitch_halved.mp3

这些参数可以帮助用户根据具体需求微调生成的语音效果。

Python模块使用

除了命令行工具,Edge-TTS还提供了Python API,使开发者能够在自己的Python项目中集成TTS功能。以下是一个简单的示例:

import asyncio
from edge_tts import Communicate

async def main():
    communicate = Communicate("Hello, world!", "en-US-AriaNeural")
    await communicate.save("hello.mp3")

if __name__ == "__main__":
    asyncio.run(main())