最佳Github AI工具与开源项目集锦

wav2vec2-large-xlsr-53-gender-recognition-librispeech

wav2vec2-large-xlsr-53-gender-recognition-librispeech

模型Librispeech

Wav2Vec2模型在Librispeech数据集上的音频性别识别应用

vram-48

vram-48

模型Github

专为大规模语言模型设计的推理优化框架

ColoringBookRedmond-V2

ColoringBookRedmond-V2

AI绘图模型

基于SD XL 1.0的高质量着色书图像生成LORA模型

Llama-3.2-90B-Vision-Instruct

Llama-3.2-90B-Vision-Instruct

模型多模态大语言模型

Meta开发的多模态大语言模型实现图像理解与视觉推理

faster-whisper-small

faster-whisper-small

WhisperHuggingface

优化的Whisper小型模型实现快速多语言语音转文本

LaBSE

LaBSE

语义嵌入Huggingface

多语言共享向量空间映射的强大工具

ms-marco-MiniLM-L-2-v2

ms-marco-MiniLM-L-2-v2

Cross-EncoderHuggingface

基于MS Marco训练的跨编码器模型实现高效文本排序

CLIP-ViT-bigG-14-laion2B-39B-b160k

CLIP-ViT-bigG-14-laion2B-39B-b160k

模型开源项目

CLIP-ViT-bigG-14模型实现高效零样本图像分类与检索

Prompt-Guard-86M

Prompt-Guard-86M

模型提示攻击

AI应用的安全防护模型

mobilevit-small

mobilevit-small

模型神经网络

高效轻量的移动端视觉转换器

wav2vec2-xls-r-300m-cv7-turkish

wav2vec2-xls-r-300m-cv7-turkish

模型wav2vec2-xls-r-300m

基于Wav2vec2优化的土耳其语语音识别模型

sd-turbo

sd-turbo

模型Github

高效单步文本到图像生成模型

Qwen2-VL-7B-Instruct-AWQ

Qwen2-VL-7B-Instruct-AWQ

模型图像理解

先进视觉语言模型实现多分辨率图像和长视频理解

faster-whisper-tiny

faster-whisper-tiny

faster-whisperWhisper

CTranslate2格式Whisper小型模型实现多语言语音识别

trocr-large-printed

trocr-large-printed

光学字符识别模型

基于Transformer的大规模印刷文本OCR模型

test-ttm-v1

test-ttm-v1

基础模型模型

开源时间序列预测模型 高效预测基础

xlm-r-bert-base-nli-stsb-mean-tokens

xlm-r-bert-base-nli-stsb-mean-tokens

模型句子嵌入

XLM-RoBERTa句子嵌入模型支持多语言语义相似度和文本聚类

food-category-classification-v2.0

food-category-classification-v2.0

模型开源项目

12类食品图像分类模型 准确率达96%

bge-small-en-v1.5

bge-small-en-v1.5

嵌入向量特征提取

BGE-Small-EN-v1.5模型为Infinity项目提供高效嵌入式推理

blip2-opt-6.7b-coco

blip2-opt-6.7b-coco

模型视觉问答

结合图像理解与自然语言处理的多模态AI系统