自监督学习工具汇总:实用AI工具与开源项目一览

wavlm-base

wavlm-base

LibriSpeechWavLM

适用于多语音任务的自监督预训练模型

electra-large-generator

electra-large-generator

文本编码Github

基于判别器架构的高效预训练语言模型

wavlm-base-sv

wavlm-base-sv

语音处理Github

WavLM预训练模型声纹识别与说话人验证系统

videomae-base-finetuned-kinetics

videomae-base-finetuned-kinetics

神经网络计算机视觉

VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率

hubert-large-ll60k

hubert-large-ll60k

Huggingface模型

Facebook推出革新性语音表示学习模型

vit_base_patch16_224.mae

vit_base_patch16_224.mae

模型开源项目

采用MAE预训练的Vision Transformer图像特征模型

vit_small_patch16_224.dino

vit_small_patch16_224.dino

模型开源项目

DINO训练的小型Vision Transformer图像特征模型

videomae-base

videomae-base

VideoMAE开源项目

基于掩码自编码器的视频自监督预训练模型

wavlm-base-plus-sv

wavlm-base-plus-sv

模型预训练模型

面向说话人验证的先进语音模型

japanese-hubert-large

japanese-hubert-large

模型rinna

大规模日语语音表示学习模型HuBERT

wavlm-base-plus-sd

wavlm-base-plus-sd

模型说话人分类

WavLM预训练模型助力高性能说话人分类

wav2vec2-large-robust-ft-libri-960h

wav2vec2-large-robust-ft-libri-960h

模型Librispeech

多领域预训练的大规模语音识别模型

dino-vits16

dino-vits16

模型开源项目

DINO训练的小型Vision Transformer模型及其应用

vit_base_patch14_dinov2.lvd142m

vit_base_patch14_dinov2.lvd142m

图像特征提取模型

Vision Transformer自监督图像特征提取模型

vit_base_patch16_224.dino

vit_base_patch16_224.dino

DINO模型

自监督训练的ViT模型实现高效图像特征提取

rad-dino

rad-dino

医学图像编码模型

胸部X光图像自监督编码的视觉转换器模型

dino-vitb16

dino-vitb16

特征提取视觉Transformer

DINO训练的ViT模型在图像识别中的应用

dinov2-giant

dinov2-giant

模型自监督学习

无监督大规模视觉特征学习模型

wav2vec2-base-vi

wav2vec2-base-vi

模型Wav2Vec2

基于wav2vec2的越南语自监督学习模型提升语音识别性能

dinov2-large

dinov2-large

特征提取图像处理

基于Vision Transformer的大规模自监督视觉特征学习模型