预训练模型工具大全:精选AI工具、网站及开源项目集锦

octo

octo

Octo机器人政策

基于transformer的通用机器人控制策略

lerobot

lerobot

LeRobot机器人

实用机器学习库助力实际机器人开发

Youku-mPLUG

Youku-mPLUG

Youku-mPLUG视频语言数据集

千万级中文视频语言数据集及多模态基准

nlp_paper_study

nlp_paper_study

NLP论文研究

NLP论文学习和实战资源库

sentence-transformers

sentence-transformers

Sentence Transformers自然语言处理

多语言文本和图像嵌入向量生成框架

assets

assets

Ultralytics计算机视觉

视觉资产和AI模型资源库

segmentation_models.pytorch

segmentation_models.pytorch

图像分割PyTorch

基于PyTorch的神经网络图像分割库

FunASR

FunASR

FunASR语音识别

综合性开源语音识别与处理工具集

CLAP

CLAP

CLAP音频处理

音频与文本的对比学习预训练模型

caduceus

caduceus

CaduceusDNA建模

双向等变长程DNA序列建模的创新方法

Depth-Anything-V2

Depth-Anything-V2

Depth Anything V2深度估计

单目深度估计新突破,高精度与快速推理并重

ProphetNet

ProphetNet

自然语言生成ProphetNet

微软自然语言生成研究项目概述

XPhoneBERT

XPhoneBERT

XPhoneBERT语音合成

多语言音素表示模型助力TTS性能提升

vampnet

vampnet

VampNet生成音乐模型

基于音频编解码器的先进音乐生成模型

coqui-ai-TTS

coqui-ai-TTS

Coqui TTS文本转语音

先进的多语言文本转语音库 支持1100多种语言

DeepSeek-V2

DeepSeek-V2

DeepSeek-V2混合专家模型

兼顾效率与经济性的大规模混合专家语言模型

3D-Speaker

3D-Speaker

说话人验证开源工具包

开源多模态说话人识别与验证工具包

InvoiceNet

InvoiceNet

InvoiceNet深度神经网络

深度神经网络,从发票文档中提取智能信息

CRM

CRM

CRM3D模型

推荐用于快速生成3D纹理网格的前馈模型

OFA

OFA

OFA预训练模型

多任务优化的跨模态序列到序列预训练模型