深度学习最佳AI工具集合:网站、应用和开源项目

speaker-diarization-3.0

speaker-diarization-3.0

Huggingface模型

基于pyannote.audio的多功能说话人分离模型

FLUX.1-dev

FLUX.1-dev

模型开源项目

高质量文本生成图像的开源AI模型

grounding-dino-tiny

grounding-dino-tiny

模型目标检测

Grounding DINO模型实现开放集目标检测的创新突破

deberta-v3-base

deberta-v3-base

Huggingface模型

高效预训练语言模型提升自然语言理解任务性能

content-vec-best

content-vec-best

Huggingface模型

使用HuggingFace Transformers框架快速集成ContentVec模型

table-transformer-structure-recognition-v1.1-all

table-transformer-structure-recognition-v1.1-all

模型计算机视觉

Table Transformer开源表格结构识别模型

vit-gpt2-image-captioning

vit-gpt2-image-captioning

模型计算机视觉

ViT-GPT2结合的智能图像描述生成模型

colbertv2.0

colbertv2.0

向量检索模型

基于BERT的大规模文本快速检索模型

bert-large-uncased

bert-large-uncased

Huggingface模型

大规模无大小写区分BERT自然语言处理预训练模型

bert-large-cased

bert-large-cased

模型文本分类

大规模双向Transformer预训练英语语言模型

wav2vec2-base-960h

wav2vec2-base-960h

模型Github

Facebook开发的高效语音识别模型

repeat

repeat

模型人工智能

开源自然语言处理库

resnet18.a1_in1k

resnet18.a1_in1k

模型神经网络

ResNet18图像分类模型 适用于多种计算机视觉任务

albert-base-v2

albert-base-v2

TransformerHuggingface

ALBERT基础模型v2实现高效自然语言处理

bert-base-multilingual-cased

bert-base-multilingual-cased

Huggingface模型

BERT多语言预训练模型覆盖104种语言

clip-vit-large-patch14-336

clip-vit-large-patch14-336

ViT计算机视觉

大规模视觉语言预训练模型CLIP-ViT-Large

vram-24

vram-24

transformersHuggingface

探索Transformer库在机器学习和NLP中的创新应用

speaker-diarization-3.1

speaker-diarization-3.1

模型说话人分离

提升语音处理的开源说话人分区技术

1

1

模型Github

开源自然语言处理工具库提升文本处理效率

wespeaker-voxceleb-resnet34-LM

wespeaker-voxceleb-resnet34-LM

模型开源项目

采用预训练的Wespeaker嵌入模型优化音频说话人识别