值得探索的AI开源项目:工具、网站与应用合集

NATSpeech学习资料汇总 - 非自回归文本转语音框架

NATSpeech学习资料汇总 - 非自回归文本转语音框架

NATSpeech是一个非自回归文本转语音(NAR-TTS)框架,包含PortaSpeech和DiffSpeech的官方PyTorch实现。本文汇总了NATSpeech的相关学习资源,帮助读者快速了解和使用这个项目。

NATSpeechText-to-SpeechPortaSpeechDiffSpeechPyTorchGithub开源项目
TTSKit 入门学习资料 - 一款强大的文本转语音工具包

TTSKit 入门学习资料 - 一款强大的文本转语音工具包

本文汇总了 TTSKit 的学习资源和相关材料,帮助开发者快速上手这款强大的文本转语音工具包。包括官方文档、教程、示例代码等,为入门 TTSKit 提供全面指南。

ttskit语音合成命令行接口WEB接口SDK接口Github开源项目
open-speech-corpora学习资料汇总-开放语音语料库列表

open-speech-corpora学习资料汇总-开放语音语料库列表

open-speech-corpora是一个收集了大量开放语音语料库的项目,用于自动语音识别、语音合成等语音技术研究。本文汇总了该项目的相关学习资源,帮助读者快速了解和使用这些宝贵的语音数据集。

开放语音语料库语音技术CC-0许可多语言Common VoiceGithub开源项目
YandexStation学习资料汇总 - 智能音箱与Home Assistant集成的神器

YandexStation学习资料汇总 - 智能音箱与Home Assistant集成的神器

YandexStation是一款功能强大的智能音箱,本文汇总了YandexStation的相关学习资料,包括安装配置、功能介绍、使用教程等,帮助读者快速上手这款与Home Assistant完美集成的智能设备。

Yandex.StationHome Assistant本地控制云控制AI绘图Github开源项目
edge-TTS-record入门指南 - 录制Microsoft Edge TTS语音的Windows工具

edge-TTS-record入门指南 - 录制Microsoft Edge TTS语音的Windows工具

edge-TTS-record是一款可以录制Microsoft Edge浏览器语音合成(TTS)音频并输出为wav格式的Windows工具。本文介绍了该工具的主要功能、使用方法和相关学习资源。

edge-TTS-recordMicrosoft Edge语音合成在线音频录制Github开源项目
vits_chinese学习资料汇总 - 基于BERT和VITS的高质量中文语音合成系统

vits_chinese学习资料汇总 - 基于BERT和VITS的高质量中文语音合成系统

本文汇总了vits_chinese项目的学习资源,包括项目介绍、在线演示、安装使用方法、训练推理流程等,帮助读者快速了解和上手这个优秀的中文TTS系统。

TTSBERTVITS文本到语音自然语言处理Github开源项目
YourTTS学习资料汇总 - 零样本多说话人TTS和语音转换模型

YourTTS学习资料汇总 - 零样本多说话人TTS和语音转换模型

本文汇总了YourTTS项目的相关学习资料,包括官方文档、代码仓库、演示Demo等,帮助读者快速了解和上手这个强大的零样本TTS和语音转换模型。

YourTTS多语言零样本多说话者TTS语音转换Coqui TTSGithub开源项目
VoiceFixer 入门学习资料 - 通用语音修复工具

VoiceFixer 入门学习资料 - 通用语音修复工具

VoiceFixer 是一个通用的语音修复工具,可以处理多种语音退化问题。本文汇总了 VoiceFixer 的相关学习资料,帮助读者快速入门和使用该工具。

VoiceFixer语音修复神经声码器语音处理预训练模型Github开源项目
ekho学习资料汇总 - 中文语音合成引擎

ekho学习资料汇总 - 中文语音合成引擎

ekho是一个开源的中文语音合成引擎,本文汇总了ekho项目的相关学习资料和资源,帮助开发者快速入门和深入学习。

Ekho语音合成eGuideDog中文TTS声音文件Github开源项目
ParallelWaveGAN学习资料汇总 - 快速高质量语音合成模型

ParallelWaveGAN学习资料汇总 - 快速高质量语音合成模型

ParallelWaveGAN是一种基于生成对抗网络的快速、小型波形生成模型,可用于实时高质量语音合成。本文汇总了ParallelWaveGAN的相关学习资料,帮助读者快速入门和深入了解这一前沿技术。

ParallelWaveGANMelGANHiFi-GAN实时语音合成多扬声器模型Github开源项目
XZVoice学习资料汇总 - 免费开源的文字转语音软件

XZVoice学习资料汇总 - 免费开源的文字转语音软件

XZVoice是一款基于Electron + Vue + ElementUI + JavaScript开发的开源文字转语音软件。本文汇总了XZVoice的相关学习资料和资源,帮助开发者快速上手使用和二次开发。

ElectronvueElementUI文字转语音软件阿里云语音合成Github开源项目
awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

本文汇总了awesome-speech-recognition-speech-synthesis-papers项目的核心内容,为语音识别与合成领域的研究者和学习者提供了一份详尽的学习资料指南。

语音识别语音合成深度学习神经网络自动语音识别Github开源项目
Voice-Cloning-App 学习资料汇总 - 一款易用的人声合成Python/Pytorch应用

Voice-Cloning-App 学习资料汇总 - 一款易用的人声合成Python/Pytorch应用

Voice-Cloning-App是一个基于Python和Pytorch的语音克隆应用,可以轻松合成人声。本文汇总了该项目的学习资料,包括安装指南、数据集构建、模型训练、语音合成等各方面内容,帮助读者快速入门和深入学习这个强大的语音合成工具。

Voice Cloning App语音克隆Pytorch人工智能数据集Github开源项目
Stable Diffusion 学习资料汇总 - 开源文本到图像生成AI模型

Stable Diffusion 学习资料汇总 - 开源文本到图像生成AI模型

本文汇总了Stable Diffusion项目的各种学习资料,包括官方文档、教程视频、代码仓库等,帮助读者快速入门和深入学习这个强大的AI图像生成模型。

Stable DiffusionAutomatic1111 Web UIDreamBooth教程视频LoRAGithub开源项目
RHVoice学习资料汇总 - 免费开源的多语言语音合成器

RHVoice学习资料汇总 - 免费开源的多语言语音合成器

RHVoice是一款功能强大的免费开源语音合成器,支持多种语言。本文汇总了RHVoice的学习资源,帮助读者快速入门和深入了解这个项目。

RHVoice语音合成开源多语言支持跨平台Github开源项目
CosyVoice学习资料汇总-多语言大规模语音生成模型

CosyVoice学习资料汇总-多语言大规模语音生成模型

CosyVoice是一个支持多语言的大规模语音生成模型,提供推理、训练和部署全栈能力。本文汇总了CosyVoice的相关学习资料,帮助读者快速了解和使用这个强大的语音合成工具。

CosyVoice多语言支持在线演示语音模型跨语言推理Github开源项目
gTTS 入�门学习资料汇总 - 基于Google Translate的Python文本转语音库

gTTS 入门学习资料汇总 - 基于Google Translate的Python文本转语音库

gTTS是一个基于Google Translate文本转语音API的Python库和命令行工具。本文汇总了gTTS的主要学习资源,帮助读者快速入门和深入使用这一便捷的文本转语音工具。

gTTS文本转语音Python库谷歌APImp3输出Github开源项目
WaveRNN入门指南 - 高效神经音频合成模型

WaveRNN入门指南 - 高效神经音频合成模型

WaveRNN是DeepMind提出的一种高效神经音频合成模型,本文介绍了WaveRNN的基本原理、安装使用方法以及相关资源。

WaveRNNTacotronPytorchTTS语音合成Github开源项目
HiFi-GAN入门学习资料汇总 - 高效高保真语音合成模型

HiFi-GAN入门学习资料汇总 - 高效高保真语音合成模型

HiFi-GAN是一个基于GAN的高效高保真语音合成模型,可以实现快速、高质量的语音生成。本文汇总了HiFi-GAN的相关学习资料,帮助读者快速入门和深入了解这一强大的语音合成技术。

HiFi-GAN语音合成生成对抗网络高保真效率Github开源项目
VALL-E 入门学习资料汇总 - 基于神经编码语言模型的零样本文本到语音合成器

VALL-E 入门学习资料汇总 - 基于神经编码语言模型的零样本文本到语音合成器

VALL-E是一种基于神经编码语言模型的创新性文本到语音合成技术,可以仅使用3秒的音频样本就实现高质量的个性化语音合成。本文汇总了VALL-E项目的相关学习资料,帮助读者快速了解和上手这一前沿技术。

VALL-E语音合成PyTorch人工智能模型训练Github开源项目