精选语音识别AI工具与应用推荐 - 免费及高效选择

wav2vec2-base-960h

wav2vec2-base-960h

模型Github

Facebook开发的高效语音识别模型

wav2vec2-xls-r-300m

wav2vec2-xls-r-300m

Huggingface模型

Facebook开发的大规模多语言预训练语音模型

whisper-large-v3

whisper-large-v3

模型OpenAI

突破性多语言语音识别与翻译模型

wav2vec2-large-xlsr-53-portuguese

wav2vec2-large-xlsr-53-portuguese

模型Wav2Vec2

XLSR-53微调的葡萄牙语语音识别模型

speaker-diarization

speaker-diarization

模型说话人分离

高效实时的开源语音说话人分割系统

wav2vec2-large-xlsr-53-russian

wav2vec2-large-xlsr-53-russian

模型俄语

基于XLSR-53的俄语语音识别微调模型

wav2vec2-large-xlsr-53-chinese-zh-cn

wav2vec2-large-xlsr-53-chinese-zh-cn

HuggingSound模型

中文自动语音识别模型提供广泛应用支持

speaker-diarization-3.1

speaker-diarization-3.1

模型说话人分离

提升语音处理的开源说话人分区技术

wav2vec2-large-xlsr-53-english

wav2vec2-large-xlsr-53-english

XLSR-53Common Voice

XLSR-53微调的英语语音识别模型

AI Phone

AI Phone

AI工具AI Phone

跨语言即时翻译和转录的电话应用

AutoSub

AutoSub

AutoSub字幕生成

开源视频自动字幕生成工具

SALMONN

SALMONN

SALMONN大语言模型

通用听觉能力赋能大语言模型 实现音频输入的多模态理解

speech_recognition

speech_recognition

SpeechRecognition语音识别

Python多引擎语音识别库

drachtio-freeswitch-modules

drachtio-freeswitch-modules

Freeswitch模块drachtio

增强实时通信应用的开源FreeSWITCH模块集

multi_token

multi_token

multi_token多模态嵌入

将多模态嵌入到大语言模型的开源框架

UEAzSpeech

UEAzSpeech

Unreal Engine插件

虚幻引擎整合Azure语音服务的开源插件

Hey-Jetson

Hey-Jetson

语音识别深度学习

面向边缘计算的实时语音识别平台

NeuralBlock

NeuralBlock

NeuralBlockYouTube赞助检测

智能识别YouTube视频赞助内容的神经网络工具

awesome-russian-speech

awesome-russian-speech

语音技术俄语

全面汇总俄语语音技术资源与开发工具

speech_course

speech_course

语音处理数字信号处理

全面语音处理技术课程,从信号处理到人工智能应用