TensorFlowASR

TensorFlowASR 项目介绍

项目概述

TensorFlowASR 是一个使用 TensorFlow 2 实现自动语音识别的项目。它支持多种前沿的语音识别模型架构，如 DeepSpeech2、Jasper、RNN Transducer、ContextNet 和 Conformer 等。项目的主要特点是能够将训练好的模型转换为 TFLite 格式，以便于在内存和计算资源有限的环境中进行部署。

项目亮点

提供几乎最先进的自动语音识别模型。
支持模型的 TFLite 转换，便于在移动设备或其他资源受限的设备上使用。
支持多种基线模型和已发表的科学研究模型。

支持的模型

基线模型

Transducer Models：采用 RNN Transducer 损失进行训练的端到端模型，包括 Conformer、ContextNet 和 Streaming Transducer。
CTCModel：使用 CTC 损失进行训练的端到端模型，如 DeepSpeech2 和 Jasper。

已发表的模型

Conformer Transducer：一种改进的 Transformer 架构，适用于语音识别。
ContextNet：一种专门优化的模型，兼顾实时处理和高精度。
RNN Transducer：利用循环神经网络实现的端到端转录模型。
Deep Speech 2 和 Jasper 等经典语音识别模型。

安装指南

用户可以通过多种方式安装 TensorFlowASR，包括从源代码安装、通过 PyPi 安装以及在 Apple Sillicon 上的特殊安装步骤。推荐使用源代码安装，以获得最新的功能和模型更新。

从源代码安装

克隆项目仓库：

git clone https://github.com/TensorSpeech/TensorFlowASR.git
cd TensorFlowASR

安装所需的 Python 包：

pip3 install ".[tf2.x]" # 或 ".[tf2.x-gpu]" 支持 GPU

通过 PyPi 安装

pip3 install "TensorFlowASR[tf2.x]" # 选择适合的安装选项

开发环境安装

适合于项目开发和贡献者：

git clone https://github.com/TensorSpeech/TensorFlowASR.git
cd TensorFlowASR
pip3 install -e ".[dev]"

训练与测试

项目提供详细的训练和测试教程，用户可以通过阅读 training 教程和 testing 教程来了解具体的操作步骤。

特性和功能

特征提取：支持多种音频特征提取技术。
数据增强：提供数据增强的功能，以提升模型的鲁棒性。
TFLite 转换：模型转换后可以直接将音频信号转为文本。

数据集

项目支持多种公共语料库进行训练和评估，包括 LibriSpeech 和 Common Voice 的英语语料库，及越南语的 Vivos 和 InfoRe Technology 数据集。

贡献方式

Fork 此项目。
建立自己的分支进行开发。
发起 Pull Request 返回项目主库。

参考和联系

TensorFlowASR 借鉴了多个开源项目和文献，更多信息和学术引用可以在项目的参考部分找到。项目维护者的联系方式为 Huy Le Nguyen，电子邮件为 nlhuy.cs.16@gmail.com。

TensorFlowASR 项目介绍

项目概述

项目亮点

支持的模型

基线模型

已发表的模型

安装指南

从源代码安装

通过 PyPi 安装

开发环境安装

训练与测试

特性和功能

数据集

贡献方式

参考和联系

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号