精选语音识别AI工具与应用推荐 - 免费及高效选择

reazonspeech-nemo-v2

reazonspeech-nemo-v2

Huggingface模型

改进后的Conformer架构实现日语长音频自动语音识别

wav2vec2-base

wav2vec2-base

模型自监督学习

Facebook开发的语音表征学习模型实现低资源语音识别

wav2vec2-large-xlsr-53-polish

wav2vec2-large-xlsr-53-polish

模型Common Voice

基于XLSR-53的波兰语语音识别模型

wav2vec2-xlsr-53-espeak-cv-ft

wav2vec2-xlsr-53-espeak-cv-ft

Huggingface模型

基于Wav2Vec2的跨语言零样本音素识别模型

wav2vec2-large-robust-ft-libritts-voxpopuli

wav2vec2-large-robust-ft-libritts-voxpopuli

模型标点符号

精确转录语音的Wav2Vec2模型 支持标点符号输出

distil-medium.en

distil-medium.en

模型开源项目

高效快速的英语语音识别模型

parakeet-tdt-1.1b

parakeet-tdt-1.1b

模型Huggingface

先进的FastConformer-TDT英语语音识别模型

wav2vec2-large-xlsr-korean

wav2vec2-large-xlsr-korean

模型Wav2Vec2

基于wav2vec2的韩语语音识别模型实现高精度自动转写

faster-whisper-large-v3

faster-whisper-large-v3

WhisperHuggingface

多语言语音识别模型CTranslate2版Whisper large-v3

faster-whisper-large-v2

faster-whisper-large-v2

WhisperHuggingface

基于Whisper large-v2的高效多语言语音转文本模型

whisper-large-v3-turbo

whisper-large-v3-turbo

AI模型Whisper

OpenAI Whisper large-v3-turbo 快速多语言语音识别与翻译模型

mms-300m-1130-forced-aligner

mms-300m-1130-forced-aligner

强制对齐CTC模型

多语言音频文本强制对齐Python工具包

hubert-base-ls960

hubert-base-ls960

Huggingface模型

自监督语音表示学习模型HuBERT助力语音识别进步

hubert-large-ls960-ft

hubert-large-ls960-ft

Huggingface模型

Facebook开发的HuBERT大型语音识别模型实现低错误率转录

wav2vec2-large-xlsr-53-dutch

wav2vec2-large-xlsr-53-dutch

模型Common Voice

XLSR-53模型在荷兰语语音识别上的应用与性能

wav2vec2-large-xlsr-53-japanese

wav2vec2-large-xlsr-53-japanese

Huggingface模型

基于Wav2Vec2的日语语音识别模型

Wav2Vec2-large-xlsr-hindi

Wav2Vec2-large-xlsr-hindi

Huggingface模型

针对印地语优化的开源语音识别模型

speakerverification_en_titanet_large

speakerverification_en_titanet_large

模型说话人验证

NVIDIA TitaNet-Large英语说话人识别模型

AST-VoxCelebSpoof-Synthetic-Voice-Detection

AST-VoxCelebSpoof-Synthetic-Voice-Detection

ASTHuggingface

AST模型实现超高精度合成语音识别

mms-1b-all

mms-1b-all

多语言语音Huggingface

大规模多语言语音识别模型支持超1100种语言