最佳Github AI工具与开源项目集锦

leopard

leopard

Leopard语音转文字

本地运行的跨平台语音转文字引擎

WhisperHallu

WhisperHallu

Whisper语音转录

实验性音频预处理工具提升Whisper转录准确度

Leaderboard

Leaderboard

语音识别基准测试

多语言语音识别基准测试平台 促进ASR系统评估

pyannote-whisper

pyannote-whisper

pyannote-whisper语音识别

整合Whisper和pyannote.audio的语音识别与说话人分割工具

huggingsound

huggingsound

HuggingSound语音识别

基于HuggingFace的语音处理开源工具库

RapidASR

RapidASR

Rapid ASR语音识别

开源多模型语音识别框架

cn2an

cn2an

cn2an数字转换

中文数字与阿拉伯数字互转的Python库

INTERSPEECH-2023-24-Papers

INTERSPEECH-2023-24-Papers

INTERSPEECH 2024语音处理

INTERSPEECH 2024语音和语言处理研究最新进展

PPASR

PPASR

语音识别PaddlePaddle

基于PaddlePaddle的开源流式与非流式语音识别框架

MASR

MASR

语音识别MASR

基于Pytorch的开源自动语音识别框架

whisper.api

whisper.api

Whisper API语音转文本

开源自托管语音转文字API项目

PaddlePaddle-DeepSpeech

PaddlePaddle-DeepSpeech

DeepSpeech2语音识别

基于PaddlePaddle的开源中文语音识别系统

vosk-server

vosk-server

语音识别服务器

多协议支持的高准确度离线语音识别服务器

youtube-transcript-api

youtube-transcript-api

YouTube Transcript API字幕提取

轻松获取YouTube视频字幕的Python API库

deep-license-plate-recognition

deep-license-plate-recognition

ALPR车牌识别

基于深度学习的多功能车牌识别系统

MORT

MORT

MORTOCR

多语言屏幕实时OCR和翻译工具

simple-ocr-opencv

simple-ocr-opencv

OCRPython

基于OpenCV和NumPy的轻量级Python OCR工具

zotero-ocr

zotero-ocr

ZoteroOCR

Zotero OCR插件实现PDF文献自动文本识别

tesstrain

tesstrain

TesseractOCR

Tesseract 5训练流程自动化工具

PyMuPDF-Utilities

PyMuPDF-Utilities

PyMuPDFPDF处理

全面的PDF和电子文档处理开发工具集