#语音识别

Maix-Speech学习资料汇总-嵌入式语音AI库

2024年09月10日
Cover of Maix-Speech学习资料汇总-嵌入式语音AI库

awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

2024年09月10日
Cover of awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

2024年09月10日
Cover of mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

speech-recognition-uk学习资料汇总 - 乌克兰语语音识别与合成项目

2024年09月10日
Cover of speech-recognition-uk学习资料汇总 - 乌克兰语语音识别与合成项目

LangHelper入门学习资料 - 基于ChatGPT和AI模型的强大语言学习应用

2024年09月10日
Cover of LangHelper入门学习资料 - 基于ChatGPT和AI模型的强大语言学习应用

klaam学习资料汇总 - 阿拉伯语语音处理开源工具库

2024年09月10日
Cover of klaam学习资料汇总 - 阿拉伯语语音处理开源工具库

dsnote 学习资料汇总 - 离线语音识别、文本转语音和机器翻译工具

2024年09月10日
Cover of dsnote 学习资料汇总 - 离线语音识别、文本转语音和机器翻译工具

自制智能音箱完全指南 - 从零开始打造属于自己的智能语音助手

2024年09月10日
Cover of 自制智能音箱完全指南 - 从零开始打造属于自己的智能语音助手

parrots入门学习资料 - 开箱即用的语音识别与合成工具包

2024年09月10日
Cover of parrots入门学习资料 - 开箱即用的语音识别与合成工具包

Android Speech使用指南 - 简化语音识别与文字转语音

2024年09月10日
Cover of Android Speech使用指南 - 简化语音识别与文字转语音
相关项目
Project Cover

leon

Leon是一个开源的个人助手,通过整合最新的TTS和ASR引擎及混合NLP技术,提供快速、定制和精准的服务。用户可以在自己的服务器上运行Leon,实现离线交流,确保隐私。Leon支持语音和文本交流,并拥有扩展技能的结构,开发者可以创建和分享技能。随着项目的发展,Leon引入了基于transformers的模型,并计划建立一个技能注册平台,鼓励社区共同开发新功能。

Project Cover

vosk-api

Vosk是一款离线开源语音识别工具包,支持20多种语言和方言。其模型体积小(仅50MB),但能提供连续的大词汇量转录、零延迟响应和流媒体API。支持Python、Java、Node.JS、C#、C++、Rust、Go等多种编程语言。适用于聊天机器人、智能家居设备、虚拟助手,也能为电影创建字幕、为讲座和采访生成转录。Vosk从Raspberry Pi等小型设备到大型集群均可扩展。访问Vosk官网获取安装指南、示例和文档。

Project Cover

wav2letter

wav2letter++现已整合到Flashlight中,专注于端到端和在线语音识别的研究。该项目提供多种预训练模型和数据准备指南,适用于有监督和半监督学习。通过Flashlight的ASR应用实现所有功能,确保高效、准确的语音识别。

Project Cover

whisper

Whisper是一个通用语音识别模型,支持多种语言处理任务,如语音翻译和语言识别。该模型基于大规模多样化音频数据集进行训练,利用Transformer技术实现高效的序列到序列学习。用户可以通过简单的命令或Python代码实现快速准确的语音识别与翻译,是一个适用于多种应用场景的强大工具。支持多个模型大小和语言选项,用户可根据需求选择合适的模型。

Project Cover

stt

这款语音识别工具可在本地离线运行,基于开源的fast-whisper模型,可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式,无需联网,确保隐私安全,与openai语音识别接口准确率相当。用户可便捷下载预编译版本,或自行部署源码,支持多种操作系统。此外,还提供API接口,适合开发者使用。支持CUDA加速,优化处理速度。

Project Cover

NeMo

NeMo框架是NVIDIA开发的一款云原生生成式AI框架,专为研究人员和使用PyTorch的开发者设计,支持大型语言模型、多模态模型、自动语音识别等多个领域。该框架能够利用现有代码和预训练的模型检查点,帮助用户高效创建和定制新的生成式AI模型。通过广泛的教程和文档,用户可以轻松开始使用NeMo框架,无论是在任何云端还是本地环境中。

Project Cover

PaddleSpeech

PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集,覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能,提供易于使用、高效和灵活的模型,支持各类语音相关任务。工具集包含全流程服务,支持流式识别与合成系统,为研究和工业应用提供强大支持。

Project Cover

飞书妙记

飞书妙记提供智能会议纪要与语音转文字服务,支持视频音频自动转录和多语言翻译,有效优化协作流程,提升信息管理效率。

Project Cover

DeepSpeech

DeepSpeech是一个开源语音转文字引擎,基于百度的Deep Speech研究,并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取,支持和贡献指南请参阅相应文件。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号