预训练模型工具大全:精选AI工具、网站及开源项目集锦

octo

octo

预训练模型开源项目

基于transformer的通用机器人控制策略

lerobot

lerobot

LeRobotGithub

实用机器学习库助力实际机器人开发

Youku-mPLUG

Youku-mPLUG

视频语言数据集Github

千万级中文视频语言数据集及多模态基准

nlp_paper_study

nlp_paper_study

论文研究开源项目

NLP论文学习和实战资源库

sentence-transformers

sentence-transformers

预训练模型Github

多语言文本和图像嵌入向量生成框架

assets

assets

开源项目Github

视觉资产和AI模型资源库

segmentation_models.pytorch

segmentation_models.pytorch

编码器Github

基于PyTorch的神经网络图像分割库

FunASR

FunASR

FunASRGithub

综合性开源语音识别与处理工具集

CLAP

CLAP

音频处理开源项目

音频与文本的对比学习预训练模型

caduceus

caduceus

基因组基准Github

双向等变长程DNA序列建模的创新方法

Depth-Anything-V2

Depth-Anything-V2

Github开源项目

单目深度估计新突破,高精度与快速推理并重

ProphetNet

ProphetNet

Github微软研究院

微软自然语言生成研究项目概述

XPhoneBERT

XPhoneBERT

音素表示Github

多语言音素表示模型助力TTS性能提升

vampnet

vampnet

生成音乐模型Github

基于音频编解码器的先进音乐生成模型

coqui-ai-TTS

coqui-ai-TTS

Github开源项目

先进的多语言文本转语音库 支持1100多种语言

DeepSeek-V2

DeepSeek-V2

开源项目Github

兼顾效率与经济性的大规模混合专家语言模型

3D-Speaker

3D-Speaker

3D-SpeakerGithub

开源多模态说话人识别与验证工具包

InvoiceNet

InvoiceNet

发票数据集Github

深度神经网络,从发票文档中提取智能信息

CRM

CRM

Huggingface DemoGithub

推荐用于快速生成3D纹理网格的前馈模型

OFA

OFA

Github开源项目

多任务优化的跨模态序列到序列预训练模型