精选AI数据集工具和项目大集合

fastMRI

fastMRI

fastMRI磁共振成像

原始 MRI 测量值和临床 MRI 图像的大规模数据集

PFLlib

PFLlib

PFLlib联邦学习

个性化联邦学习算法库和评估平台

reward-bench

reward-bench

RewardBench评价标准

用于评估使用如Starling、PairRM、OpenAssistant和DPO等算法的奖励模型的能力和安全性的基准工具

diffusiondb

diffusiondb

DiffusionDBStable Diffusion

大规模文本生成图像数据集,促进多领域研究

DialogStudio

DialogStudio

DialogStudio数据集

提供丰富多样的对话数据集和任务意识模型

awesome-instruction-dataset

awesome-instruction-dataset

LLMsChatGPT

开源的多任务多语言指令微调数据集

ChatGLM-Efficient-Tuning

ChatGLM-Efficient-Tuning

ChatGLM高效微调

微调ChatGLM-6B模型,支持多种训练和量化方法

speech_dataset

speech_dataset

语音识别语音合成

多语言语音识别与合成数据集详细介绍及应用

dl-for-emo-tts

dl-for-emo-tts

Tacotron深度学习

通过深度学习实现情感语音合成

OpenSTL

OpenSTL

OpenSTL时空预测

OpenSTL:时空预测学习的全面基准和模块化框架

semantic-segmentation

semantic-segmentation

Semantic SegmentationPyTorch

提供丰富数据集和易于定制的语义分割模型

rebel

rebel

REBEL关系抽取

关系抽取的高效端到端语言生成新方法

text2sql-data

text2sql-data

text2sql-dataSQL查询

自然语言转SQL转换系统的数据和代码

ConvoKit

ConvoKit

ConvoKit对话特征提取

对话特征提取及社会现象分析的全面工具包

wit

wit

WIT数据集

全球最大多语言多模态数据集,助力机器学习模型优化

Medical_NLP

Medical_NLP

Medical_NLP中文医疗基准测评

医疗行业自然语言处理资源汇总,包括评测、数据集和预训练模型

text

text

torchtextPyTorch

TorchText自然语言处理工具包即将终止开发并发布最终版本

FinGPT

FinGPT

FinGPT金融大语言模型

开源金融大模型FinGPT,快速适应市场变化

nlp_chinese_corpus

nlp_chinese_corpus

中文自然语言处理语料

中文自然语言处理高质量多任务语料库

ChatGPT-RetrievalQA

ChatGPT-RetrievalQA

ChatGPT信息检索

使用ChatGPT和人类响应数据训练和评估问答检索模型