精选AI数据集工具和项目大集合

bocoel入门指南 - 高效评估大语言模型的贝叶斯优化工具

bocoel入门指南 - 高效评估大语言模型的贝叶斯优化工具

本文介绍了bocoel项目,一个利用贝叶斯优化来高效评估大语言模型的开源工具。文章详细讲解了bocoel的原理、特点、安装使用方法以及贡献指南,为想要快速高效评估大语言模型的研究者和开发者提供了全面的入门指南。

BoCoEL贝叶斯优化大语言模型评估数据集Github开源项目
awesome-recommend-system-pretraining-papers学习资料汇总 - 推荐系统预训练模型论文列表

awesome-recommend-system-pretraining-papers学习资料汇总 - 推荐系统预训练模型论文列表

本文汇总了awesome-recommend-system-pretraining-papers项目的主要内容和学习资源,包括论文列表、数据集、代码实现等,为推荐系统预训练模型研究提供全面的参考。

Recommend System预训练模型大语言模型数据集用户表示预训练Github开源项目
alpaca-chinese-dataset入门学习资料汇总 - 中文指令微调数据集

alpaca-chinese-dataset入门学习资料汇总 - 中文指令微调数据集

本文汇总了alpaca-chinese-dataset项目的相关学习资源,包括项目介绍、数据集说明、使用方法等,帮助读者快速了解和使用这个中文指令微调数据集。

alpaca中文指令数据集机器翻译self-instructGithub开源项目
Character-LLM: 可训练的角色扮演AI代理 - trainable-agents项目学习资源汇总

Character-LLM: 可训练的角色扮演AI代理 - trainable-agents项目学习资源汇总

Character-LLM是一个可训练的角色扮演AI代理,能够模仿特定人物的性格和行为。本文汇总了trainable-agents项目的相关学习资源,帮助读者快速了解和上手这一创新技术。

Character-LLM角色扮演数据集训练LLMGithub开源项目
Voice-Cloning-App 学习资料汇总 - 一款易用的人声合成Python/Pytorch应用

Voice-Cloning-App 学习资料汇总 - 一款易用的人声合成Python/Pytorch应用

Voice-Cloning-App是一个基于Python和Pytorch的语音克隆应用,可以轻松合成人声。本文汇总了该项目的学习资料,包括安装指南、数据集构建、模型训练、语音合成等各方面内容,帮助读者快速入门和深入学习这个强大的语音合成工具。

Voice Cloning App语音克隆Pytorch人工智能数据集Github开源项目
CareGPT学习资料汇总 - 开源驱动的医疗大语言模型

CareGPT学习资料汇总 - 开源驱动的医疗大语言模型

CareGPT是一个开源的医疗大语言模型项目,集合了多个公开医疗数据集和模型。本文汇总了CareGPT的学习资料,包括代码库、数据集、模型、部署方法等,为想要了解和使用CareGPT的读者提供全面的指引。

CareGPT医疗LLM开源模型数据集部署Github开源项目
DB-GPT-Hub学习资料汇总 - 基于大语言模型的开放文本到SQL基准平台

DB-GPT-Hub学习资料汇总 - 基于大语言模型的开放文本到SQL基准平台

DB-GPT-Hub是一个基于大语言模型的开放文本到SQL基准平台,本文汇总了该项目的学习资料,包括项目介绍、数据集、模型、使用教程等,为有意学习和使用DB-GPT-Hub的开发者提供参考。

DB-GPT-HubText-to-SQLLLMs性能调优数据集Github开源项目
LLMDataHub入门指南 - 大型语言模型训练数据集汇总

LLMDataHub入门指南 - 大型语言模型训练数据集汇总

LLMDataHub是一个收集和整理用于训练大型语言模型的高质量数据集的开源项目。本文对该项目进行了全面介绍,并提供了丰富的学习资源链接,帮助读者快速了解和使用这些数据集。

LLMDataHub数据集大语言模型开源社区聊天机器人Github开源项目
deep-text-recognition-benchmark入门学习资料 - 场景文本识别框架

deep-text-recognition-benchmark入门学习资料 - 场景文本识别框架

deep-text-recognition-benchmark是一个用于场景文本识别的开源框架,提供了多种模型和数据集,是进行文本识别研究的重要工具。本文汇总了该项目的相关学习资源,帮助读者快速入门。

场景文本识别深度学习PyTorch数据集模型分析Github开源项目
Fashion-MNIST学习资料汇总 - 替代MNIST的时尚产品图像数据集

Fashion-MNIST学习资料汇总 - 替代MNIST的时尚产品图像数据集

Fashion-MNIST是一个包含70,000张28x28灰度图像的数据集,旨在替代经典的MNIST手写数字数据集。本文汇总了Fashion-MNIST的介绍、用法、相关资源和学习材料,帮助读者快速上手这个机器学习基准数据集。

Fashion-MNIST机器学习数据集Zalando神经网络Github开源项目
Tensor2Tensor学习资料汇总 - 加速机器学习研究的深度学习模型和数据集库

Tensor2Tensor学习资料汇总 - 加速机器学习研究的深度学习模型和数据集库

Tensor2Tensor (T2T) 是一个深度学习模型和数据集库,旨在让深度学习更容易上手并加速机器学习研究。本文汇总了 T2T 的相关学习资源,帮助读者快速入门和深入使用这个强大的工具。

Tensor2Tensor深度学习模型训练翻译任务数据集Github开源项目
datasets-学习资料汇总-一行代码加载和预处理海量数据集

datasets-学习资料汇总-一行代码加载和预处理海量数据集

datasets是Hugging Face开源的数据集处理库,提供了一行代码加载和预处理海量公开数据集的强大功能。本文汇总了datasets的学习资料和使用指南,帮助读者快速上手这个强大的数据集工具。

Hugging Face数据集机器学习APIApache ArrowGithub开源项目
Lunary学习资料汇总 - 开源LLM工具包助力AI应用开发

Lunary学习资料汇总 - 开源LLM工具包助力AI应用开发

Lunary是一款开源的LLM开发工具包,提供观察性、提示管理和评估功能。本文汇总了Lunary的学习资料,帮助开发者快速上手这个强大的AI开发工具。

lunaryLLM观察性提示管理数据集Github开源项目
jailbreak_llms入门学习资料-大型语言模型越狱攻击研究项目

jailbreak_llms入门学习资料-大型语言模型越狱攻击研究项目

jailbreak_llms是一个收集和分析大型语言模型越狱提示的研究项目,包含15,140个提示数据集和相关代码。本文介绍了该项目的背景、数据集、代码和研究发现,为想要了解LLM安全性的研究人员提供入门参考。

JailbreakHubACM CCS 2024大语言模型数据集伦理Github开源项目
CV学习资料汇总 - 从零开始掌握深度学习和计算机视觉

CV学习资料汇总 - 从零开始掌握深度学习和计算机视觉

全面的深度学习和计算机视觉学习资料,包含Pytorch、李沐动手学深度学习、吴恩达深度学习课程的笔记和代码实现。

Pytorch深度学习视频讲解Jupyter Notebook数据集Github开源项目
ssd.pytorch入门学习资料 - PyTorch实现的单发多框检测器

ssd.pytorch入门学习资料 - PyTorch实现的单发多框检测器

ssd.pytorch是一个基于PyTorch实现的单发多框检测器(SSD)的开源项目。本文汇总了该项目的学习资料,包括代码库、教程、预训练模型等,帮助读者快速入门和使用SSD目标检测算法。

SSDPyTorch训练数据集评估Github开源项目
FiftyOne学习资源汇总 - 用于构建高质量数据集和计算机视觉模型的开源工具

FiftyOne学习资源汇总 - 用于构建高质量数据集和计算机视觉模型的开源工具

FiftyOne是一个开源工具,可以帮助您构建高质量的数据集和计算机视觉模型。本文汇总了FiftyOne的相关学习资源,包括官方文档、教程、示例等,方便您快速上手和深入学习这个强大的工具。

FiftyOne数据集计算机视觉模型评估机器学习Github开源项目
First-Order-Model 入门学习资料汇总 - 用于图像动画的第一阶运动模型

First-Order-Model 入门学习资料汇总 - 用于图像动画的第一阶运动模型

First-Order-Model 是一个用于图像动画生成的深度学习模型,可以将静态图像根据驱动视频进行动画化。本文汇总了该项目的主要学习资源,包括论文、代码、演示等,帮助读者快速入门和应用这一技术。

First Order Motion Model图像动画数据集PythonDockerGithub开源项目
Google Research开源项目学习资料汇总 - 探索前沿AI和科学研究

Google Research开源项目学习资料汇总 - 探索前沿AI和科学研究

Google Research开源了大量AI和科学研究项目,本文整理了相关学习资源,帮助读者快速了解和上手这些前沿研究成果。

Google Research代码库数据集许可证GitHubGithub开源项目
PubMed 200k RCT数据集:医学文献摘要句子分类的大规模数据集

PubMed 200k RCT数据集:医学文献摘要句子分类的大规模数据集

PubMed 200k RCT是一个用于医学文献摘要中连续句子分类的大型数据集,包含约20万篇随机对照试验摘要,共230万个句子。该数据集的发布旨在推动短文本序列分类算法的发展,并为医学研究人员提供更高效的文献阅读工具。

PubMed 200k RCT数据集医学摘要分类序列句子分类自然语言处理Github开源项目