tensorflow-speech-recognition

项目介绍：Tensorflow Speech Recognition

概述

Tensorflow Speech Recognition 是一个使用谷歌 TensorFlow 深度学习框架进行语音识别的项目，采用了序列到序列的神经网络模型。最初，该项目是作为 Caffe Speech Recognition 的替代方案，现在主要为教学目的而维护。

项目现状

截至2024年，该项目已经不再符合当前的技术水平，因为使用的是旧版本的 TensorFlow 1.0，而且理论上也不再是最新的。因此，项目作者推荐最新的语音识别工具 Whisper，而在2020年，Mozilla 也发布了名为 DeepSpeech 的语音识别项目，为终端用户提供了更好的选择。

项目目标

这个项目的最终目标是创建一个可在 Linux 等系统中独立运行的语音识别软件。虽然有人认为目前没有足够的训练数据，但本项目持不同意见，因为市面上已经有大量的数据可供使用，例如开放语料库网站(OpenSLR)上的数据、合成语音片段、电影中文字幕、古腾堡计划文库以及YouTube的字幕等。项目认为，目前的任务是开发一个简单而强大的模型。

安装指南

要安装项目，首先需要从 GitHub 上克隆代码：

git clone https://github.com/pannous/tensorflow-speech-recognition
cd tensorflow-speech-recognition
git clone https://github.com/pannous/layer.git
git clone https://github.com/pannous/tensorpeers.git

安装 pyaudio

需要从 PortAudio 网站获取相关依赖：

git clone  https://git.assembla.com/portaudio.git
./configure --prefix=/path/to/your/local
make
make install
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/local/lib
export LIDRARY_PATH=$LIBRARY_PATH:/path/to/your/local/lib
export CPATH=$CPATH:/path/to/your/local/include
source ~/.bashrc