
基于pyannote.audio的多功能说话人分离模型

高质量文本生成图像的开源AI模型

Grounding DINO模型实现开放集目标检测的创新突破

高效预训练语言模型提升自然语言理解任务性能

使用HuggingFace Transformers框架快速集成ContentVec模型

Table Transformer开源表格结构识别模型

ViT-GPT2结合的智能图像描述生成模型

基于BERT的大规模文本快速检索模型

大规模无大小写区分BERT自然语言处理预训练模型

大规模双向Transformer预训练英语语言模型

Facebook开发的高效语音识别模型

开源自然语言处理库

ResNet18图像分类模型 适用于多种计算机视觉任务

ALBERT基础模型v2实现高效自然语言处理

BERT多语言预训练模型覆盖104种语言

大规模视觉语言预训练模型CLIP-ViT-Large

探索Transformer库在机器学习和NLP中的创新应用

提升语音处理的开源说话人分区技术

开源自然语言处理工具库提升文本处理效率

采用预训练的Wespeaker嵌入模型优化音频说话人识别
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号