OTTO 推荐系统数据集

一个用于基于会话的推荐系统研究的真实电商数据集。

OTTO会话数据集是一个大规模数据集，旨在用于多目标推荐研究。我们从OTTO网上商城和应用程序的匿名行为日志中收集了这些数据。该数据集的目标是作为基于会话的推荐的基准，并促进多目标和基于会话的推荐系统领域的研究。我们还在Kaggle上发起了一项竞赛，目标是根据用户会话中的先前事件预测点击、加入购物车和订单。

主要特点

1200万真实匿名用户会话
2.2亿事件，包括点击、加入购物车和订单
180万种独特商品目录
现成可用的.jsonl格式数据
多目标优化的评估指标

数据集统计

数据集	会话数	商品数	事件数	点击数	加入购物车数	订单数	密度 [%]
训练集	12,899,779	1,855,603	216,716,096	194,720,954	16,896,191	5,098,951	0.0005
测试集	1,671,803	1,019,357	13,851,293	12,340,303	1,155,698	355,292	0.0005

	平均值	标准差	最小值	中位数	75分位数	90分位数	95分位数	最大值
训练集每会话事件数	16.80	33.58	2	6	15	39	68	500
测试集每会话事件数	8.29	13.74	2	4	8	18	28	498

<details> <summary><strong>每会话事件数直方图（90分位数）</strong></summary> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b132028b-aeca-4234-8fb8-972ab385bad3.svg" width="800px"> </details>

	平均值	标准差	最小值	中位数	75分位数	90分位数	95分位数	最大值
训练集每商品事件数	116.79	728.85	3	20	56	183	398	129,004
测试集每商品事件数	13.59	70.48	1	3	9	24	46	17,068

<details> <summary><strong>每商品事件数直方图（90分位数）</strong></summary> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/674cead1-35f3-4583-b056-64ad0390b143.svg" width="800px"> </details>

获取数据

数据存储在Kaggle平台上，可以使用他们的API下载：

kaggle datasets download -d otto/recsys-dataset

数据格式

会话以JSON对象的形式存储，包含一个唯一的session ID和一个events列表：

{
    "session": 42,
    "events": [
        { "aid": 0, "ts": 1661200010000, "type": "clicks" },
        { "aid": 1, "ts": 1661200020000, "type": "clicks" },
        { "aid": 2, "ts": 1661200030000, "type": "clicks" },
        { "aid": 2, "ts": 1661200040000, "type": "carts"  },
        { "aid": 3, "ts": 1661200050000, "type": "clicks" },
        { "aid": 3, "ts": 1661200060000, "type": "carts"  },
        { "aid": 4, "ts": 1661200070000, "type": "clicks" },
        { "aid": 2, "ts": 1661200080000, "type": "orders" },
        { "aid": 3, "ts": 1661200080000, "type": "orders" }
    ]
}

session - 唯一的会话ID
events - 会话中按时间顺序排列的事件序列
- aid - 与事件相关的文章ID（产品代码）
- ts - 事件的Unix时间戳
- type - 事件类型，即在会话期间产品是被点击、添加到用户购物车还是下单

提交格式

对于测试集中的每个sessionID和type组合，你必须预测label列中的aid值，用空格分隔。每行最多可以预测20个aid值。文件应包含标题，格式如下：

session_type,labels
42_clicks,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
42_carts,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
42_orders,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

安装

要运行我们的脚本，你需要安装Python 3和Pipenv。然后，你可以使用以下命令安装依赖项：

pipenv sync

评估

提交的内容将根据每种操作type的召回率@20进行评估，并对三个召回值进行加权平均：

$$ score = 0.10 \cdot R_{clicks} + 0.30 \cdot R_{carts} + 0.60 \cdot R_{orders} $$

其中$R$定义为

$$ R_{type} = \frac{ \sum\limits_{i=1}^N | \{ \text{predicted aids} \}_{i, type} \cap \{ \text{ground truth aids} \}_{i, type} | }{ \sum\limits_{i=1}^N \min{( 20, | \{ \text{ground truth aids} \}_{i, type} | )}} $$

$N$是测试集中的总会话数，$\text{predicted aids}$是每个会话类型的预测（例如，提交文件中的每一行）在前20个预测后截断。

对于测试数据中的每个session，你的任务是预测在测试会话最后一个时间戳ts之后发生的每种type的aid值。换句话说，测试数据包含按时间戳截断的会话，你需要预测截断点之后发生的情况。

对于clicks，每个会话只有一个真实值，即会话期间下一个被点击的aid（尽管你仍可以预测最多20个aid值）。carts和orders的真实值包含在会话期间分别添加到购物车和下单的所有aid值。

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/14cec0a1-675e-4f5e-b6ef-de9ce26cc9bd.png" width="100%"> <details> <summary><strong>点击此处查看上面标记的会话<code>JSON</code></strong></summary> ```JSON [ { "aid": 0, "ts": 1661200010000, "type": "clicks", "labels": { "clicks": 1, "carts": [2, 3], "orders": [2, 3] } }, { "aid": 1, "ts": 1661200020000, "type": "clicks", "labels": { "clicks": 2, "carts": [2, 3], "orders": [2, 3] } }, { "aid": 2, "ts": 1661200030000, "type": "clicks", "labels": { "clicks": 3, "carts": [2, 3], "orders": [2, 3] } }, { "aid": 2, "ts": 1661200040000, "type": "carts", "labels": { "clicks": 3, "carts": [3], "orders": [2, 3] } }, { "aid": 3, "ts": 1661200050000, "type": "clicks", "labels": { "clicks": 4, "carts": [3], "orders": [2, 3] } }, { "aid": 3, "ts": 1661200060000, "type": "carts", "labels": { "clicks": 4, "orders": [2, 3] } }, { "aid": 4, "ts": 1661200070000, "type": "clicks", "labels": { "orders": [2, 3] } }, { "aid": 2, "ts": 1661200080000, "type": "orders", "labels": { "orders": [3] } } ] ```

要从未标记的会话中创建这些标签，你可以使用labels.py中的ground_truth函数。

训练/测试集划分

由于我们希望评估模型在未来的表现，就像我们在实际的网上商店中部署这样的系统时一样，我们选择了基于时间的验证划分。我们的训练集包含4周的观察数据，而测试集包含接下来一周的用户会话。此外，我们裁剪了与测试期重叠的训练会话，如下图所示，以防止来自未来的信息泄露：

我们将在Kaggle竞赛结束后发布最终测试集。然而，在此之前，竞赛参与者可以从训练会话中创建他们的截断测试集，并使用它来离线评估他们的模型。为此，我们提供了一个名为testset.py的Python脚本：

pipenv run python -m src.testset --train-set train.jsonl --days 2 --output-path 'out/' --seed 42

指标计算

你可以使用evaluate.py脚本来计算每种操作类型的Recall@20和加权平均Recall@20：

pipenv run python -m src.evaluate --test-labels test_labels.jsonl --predictions predictions.csv

常见问题

用户`session`是如何定义的？

一个会话是单个用户在训练集或测试集中的所有活动。

训练数据和测试数据中是否有相同的用户？

没有，训练用户和测试用户是完全不同的。

所有测试`aids`是否都包含在训练集中？

是的，所有测试项目也包含在训练集中。

一个会话如何以订单或购物车开始？

如果订购的商品在数据提取期开始之前已经在客户的购物车中，就会发生这种情况。同样，我们商店的愿望清单可能导致购物车添加商品而没有之前的点击。

`aids`是否与otto.de上的商品编号相同？

不是，所有商品和会话ID都是匿名化的。

大多数点击是由我们当前的推荐系统生成的吗？

不是，我们当前的推荐系统只生成了数据集中约20%的产品页面浏览量。大多数用户通过搜索结果和产品列表到达产品页面。

是否允许在截断的测试会话上进行训练？

是的，在竞赛范围内，你可以使用我们提供的所有数据。

如果真实标签包含超过20个标签，Recall@20如何计算？

如果你在真实标签中正确预测了20个项目，你仍然会得到1.0的分数。

在哪里可以找到商品和用户元数据？

这个数据集有意只包含匿名化的ID。考虑到其已经很大的规模，我们特意没有包括内容特征，以使数据集更易于管理，并专注于解决多目标问题的协同过滤技术。

许可

OTTO数据集在CC-BY 4.0许可下发布，而代码则在MIT许可下授权。

引用

BibTeX条目：

@online{normann2022ottodataset,
  author       = {Philipp Normann, Sophie Baumeister, Timo Wilm},
  title        = {OTTO推荐系统数据集：基于会话的推荐系统研究的真实电子商务数据集},
  date         = {2022-11-01},
}