这是一个公开推荐系统(RS)数据源的仓库。
所有这些推荐数据集都可以转换为RecBole中定义的原子文件,RecBole是一个统一、全面且高效的推荐库。
转换为原子文件后,您可以轻松使用RecBole来测试不同推荐模型在这些数据集上的性能。有关RecBole的更多信息,请参阅RecBole。
为了使用RecBole,您需要将这些原始数据集转换为RecBole定义的一种数据格式——原子文件。
我们提供两种方法将这些数据集转换为原子文件:
下载原始数据集并使用我们在此仓库中提供的转换工具进行处理。请参阅转换工具。
直接下载已处理的原子文件。百度网盘(密码:e272),Google Drive。
Criteo: 该数据集收集自Criteo,包含了Criteo在几天内的部分流量数据。
Avazu: 该数据集用于Avazu点击率预测竞赛。
iPinYou: 该数据集由iPinYou提供,包含了iPinYou全球实时竞价(RTB)竞价算法竞赛三个赛季的所有训练数据集和排行榜测试数据集。
AliEC: Ali_Display_Ad_Click是一个关于淘宝网站展示广告点击率预测的数据集。该数据集由阿里巴巴公司提供。
Foursquare: 该数据集包含了纽约和东京约10个月的签到数据。 每次签到都与其时间戳、GPS坐标和语义意义相关联。
Gowalla: 该数据集来自一个基于位置的社交网站,用户通过签到分享他们的位置。包含了这些用户在2009年2月至2010年10月期间的总计6,442,890次签到记录。
songfacts.com和last.fm网站。项目是歌曲,通过从songfacts.com提取的文本描述和last.fm的标签进行描述。Freesound.org。项目是声音,通过声音创作者在上传时创建的文本描述和标签进行描述。Book-Crossing: 这个数据集是由Cai-Nicolas Ziegler在2004年8月/9月的4周内从Book-Crossing社区爬取的,得到了Humankind Systems首席技术官Ron Hornbaker的许可。 它包含278,858名用户(匿名但有人口统计信息)对271,379本书提供的1,149,780条评分(显式/隐式)。
GoodReads: 这个数据集包含来自Goodreads图书评论网站的评论,以及描述这些项目的各种属性。重要的是,数据集有多个用户交互级别,从加入书架、评分到阅读。
KDD2010: 这个数据集在KDD Cup 2010教育数据挖掘挑战赛中发布,包含了学生在系统上提交练习的情况。
EndoMondo: 这是一个来自EndoMondo用户的锻炼日志集合。 数据包括多种连续传感器数据,如心率记录、速度、GPS,以及运动类型、性别和天气条件。
钓鱼网站: 这个数据集包含11,055个网站的30种特征,以及它们是否为钓鱼网站的标签。 网站特征包括12个基于地址栏的特征、6个基于异常的特征、5个基于HTML和JavaScript的特征,以及7个基于域名的特征。
大众点评: 这个数据集包含从著名的中国在线评论网站大众点评网抓取的用户评论以及详细的商家元数据信息,包括510,071名用户对209,132家商家的3,605,300条评论。
食品: 这些数据集包含来自Food.com(前身为GeniusKitchen)的菜谱详情和评论。数据包括烹饪菜谱和评论文本。
| 序号 | 数据集 | 用户数 | 物品数 | 交互数 | 稀疏度 | 交互类型 | 时间戳 | 用户上下文 | 物品上下文 | 交互上下文 |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | MovieLens | - | - | - | - | 评分 | √ | √ | √ | |
| 2 | Anime | 73,515 | 11,200 | 7,813,737 | 99.05% | 评分 <br> [-1, 1-10] | √ | |||
| 3 | Epinions | 116,260 | 41,269 | 188,478 | 99.99% | 评分 <br> [1-5] | √ | √ | ||
| 4 | Yelp<br>(5个版本) | - | - | - | - | 评分 <br> [1-5] | √ | √ | √ | √ |
| 5 | Netflix | 480,189 | 17,770 | 100,480,507 | 98.82% | 评分 <br> [1-5] | √ | |||
| 6 | Book-Crossing | 105,284 | 340,557 | 1,149,780 | 99.99% | 评分 <br> [0-10] | √ | √ | ||
| 7 | Jester | 73,421 | 101 | 4,136,360 | 44.22% | 评分 <br> [-10, 10] | ||||
| 8 | 豆瓣 | 738,701 | 28 | 2,125,056 | 89.73% | 评分 <br> [0,5] | √ | √ | ||
| 9 | Yahoo Music | 1,948,882 | 98,211 | 11,557,943 | 99.99% | 评分 <br> [0, 100] | √ | |||
| 10 | KDD2010 | - | - | - | - | 评分 | √ | |||
| 11 | Amazon<br>(2014 & 2018) | - | - | - | - | 评分<br/> [0,5] | √ | √ | ||
| 12 | 55,187 | 9,911 | 1,445,622 | 99.74% | - | |||||
| 13 | Gowalla | 107,092 | 1,280,969 | 6,442,892 | 99.99% | 签到 | √ | √ | ||
| 14 | Last.FM | 1,892 | 17,632 | 92,834 | 99.72% | 点击 | √ | |||
| 15 | DIGINETICA | 204,789 | 184,047 | 993,483 | 99.99% | 点击 | √ | √ | ||
| 16 | Steam | 2,567,538 | 32,135 | 7,793,069 | 99.99% | 购买 | √ | √ | √ | |
| 17 | Ta Feng | 32,266 | 23,812 | 817,741 | 99.89% | 点击 | √ | √ | √ | √ |
| 18 | Foursquare | - | - | - | - | 签到 | √ | √ | ||
| 19 | Tmall | 963,923 | 2,353,207 | 44,528,127 | 99.99% | 点击/购买 | √ | √ | ||
| 20 | YOOCHOOSE | 9,249,729 | 52,739 | 34,154,697 | 99.99% | 点击/购买 | √ | √ | ||
| 21 | Retailrocket | 1,407,580 | 247,085 | 2,756,101 | 99.99% | 浏览/加入购物车/交易 | √ | |||
| 22 | LFM-1b | 120,322 | 3,123,496 | 1,088,161,692 | 99.71% | 点击 | √ | √ | √ | √ |
| 23 | MIND | - | - | - | - | 点击 | √ | |||
| 24 | BeerAdvocate | 33,388 | 66,055 | 1,586,614 | 99.9281% | 评分<br/> [0,5] | √ | √ | ||
| 25 | Behance | 63,497 | 178,788 | 1,000,000 | 99.9912% | 点赞 | √ | √ | ||
| 26 | 大众点评 | 542,706 | 243,247 | 4,422,473 | 99.9967% | 评分<br/> [0,5] | √ | √ | √ | |
| 27 | EndoMondo | 1,104 | 253,020 | 253,020 | 99.9094% | 运动日志 | √ | √ | √ | |
| 28 | 食品 | 226,570 | 231,637 | 1,132,367 | 99.9978% | 评分<br/> [0,5] | √ | √ | ||
| 29 | GoodReads | 876,145 | 2,360,650 | 228,648,342 | 99.9889% | 评分<br/> [0,5] | √ | √ | ||
| 30 | KGRec | - | - | - | - | 点击 | √ | |||
| 31 | ModCloth | 47,958 | 1,378 | 82,790 | 99.8747% | 评分<br/> [0,5] | √ | √ | √ | |
| 32 | RateBeer | 29,265 | 110,369 | 2,924,163 | 99.9095% | 总体评分<br/> [0,20] | √ | √ | √ | |
| 33 | RentTheRunway | 105,571 | 5,850 | 192,544 | 99.9688% | 评分<br/> [0,10] | √ | √ | √ | √ |
| 34 | Twitch | 15,524,309 | 6,161,666 | 474,676,929 | 99.9995% | 点击 | √ | |||
| 35 | 亚马逊_M2 | 3,606,349 | 1,410,675 | 15,306,183 | - | 点击 | √ | √ | ||
| 36 | Music4All-Onion | 119,140 | 109,269 | 252,984,396 | - | 点击 | √ | √ | √ |
| 序号 | 数据集 | 用户数 | 物品数 | 交互数 | 稀疏度 | 交互类型 | 时间戳 | 用户上下文 | 物品上下文 | 交互上下文 |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Criteo | - | - | 45,850,617 | - | 点击 | √ | |||
| 2 | Avazu | - | - | 40,428,967 | - | 点击 <br> [0, 1] | √ | √ | ||
| 3 | iPinYou | 19,731,660 | 163 | 24,637,657 | 99.23% | 浏览/点击 | √ | √ | √ | |
| 4 | 钓鱼网站 | - | - | 11,055 | - | √ | ||||
| 5 | Adult | - | - | 32,561 | - | 收入>=50k <br> [0, 1] | √ | |||
| 6 | 阿里巴巴-iFashion | 3,569,112 | 4,463,302 | 191,394,393 | 99.9988% | 点击 | √ | |||
| 7 | AliEC | 491,647 | 240,130 | 1,366,056 | 99.9988% | 点击 | √ | √ | √ |
这些知识感知推荐数据集基于KB4Rec,将推荐系统中的物品与Freebase中的实体关联起来。 请注意,Amazon-book数据集是2014年发布的版本。
原始数据集信息
| 序号 | 数据集 | 物品数 | 关联物品数 | 用户数 | 交互数 |
|---|---|---|---|---|---|
| 1 | MovieLens | 27,278 | 25,503 | 138,493 | 20,000,263 |
| 2 | Amazon-book | 2,370,605 | 108,515 | 8,026,324 | 22,507,155 |
| 3 | LFM-1b (音轨) | 31,634,450 | 1,254,923 | 120,322 | 319,951,294 |
经过5-core过滤后(并在LFM-1b中过滤掉收听次数少于10次的音轨)
| 序号 | 数据集 | 物品数 | 关联物品数 | 用户数 | 交互数 |
|---|---|---|---|---|---|
| 1 | MovieLens | 18,345 | 18,057 | 138,493 | 19,984,024 |
| 2 | Amazon-book | 367,982 | 34,476 | 603,668 | 8,898,041 |
| 3 | LFM-1b (音轨) | 615,823 | 337,349 | 79,133 | 15,765,756 |


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


阿里Qoder团队推出的桌面端AI智能体
QoderWork 是阿 里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字 生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号