使用TensorFlow和Keras构建推荐系统:从入门到实践

Keras是一个高级神经网络API,以其简洁、模块化和可扩展性而闻名。在本教程中,我们将使用Keras来:

构建神经网络层
定义模型结构
处理输入数据

Keras的易用性使得我们能够快速实验不同的模型架构,这在推荐系统的开发中尤为重要。

MovieLens数据集介绍

在本教程中,我们将使用著名的MovieLens数据集来构建和训练我们的推荐系统。MovieLens是由明尼苏达大学的GroupLens研究实验室收集和维护的电影评分数据集,广泛用于推荐系统的研究和教学。

数据集概览

我们将使用MovieLens 100K数据集,它包含:

943个用户对1682部电影的100,000条评分数据
评分范围从1到5星
每个用户至少对20部电影进行了评分

数据集分为两个主要部分:

movielens/100k-ratings:
- 包含用户对电影的评分数据
- 格式:用户ID、电影ID、评分、时间戳
movielens/100k-movies:
- 包含电影的元数据
- 格式:电影ID、标题、发行日期、类型等

数据集的特点

MovieLens 100K数据集具有以下特点,使其成为学习推荐系统的理想选择:

规模适中:数据量足够大以展示真实世界的复杂性,但又不至于需要大量计算资源。
丰富的元数据:除了评分数据,还包含用户和电影的详细信息,可用于特征工程。
稀疏性:反映了现实世界中用户-物品交互的稀疏特性。
时间信息:包含时间戳,可用于研究时间对推荐的影响。
公开可用:数据集是公开的,便于研究复现和比较。

使用TensorFlow Datasets加载数据

在开始构建推荐模型之前,我们首先需要加载和预处理数据。TensorFlow Datasets (TFDS) 提供了一种便捷的方式来加载和处理MovieLens数据集。

import tensorflow_datasets as tfds
import tensorflow as tf

# 加载MovieLens 100K数据集
ratings = tfds.load('movielens/100k-ratings', split="train")
movies = tfds.load('movielens/100k-movies', split="train")

# 将数据转换为tf.data.Dataset
ratings = ratings.map(lambda x: {
    "movie_title": x["movie_title"],
    "user_id": x["user_id"],
    "user_rating": x["user_rating"]
})

# 打印数据集的一些样本
for x in ratings.take(3).as_numpy_iterator():
  print(x)

这段代码首先加载了评分数据和电影数据。然后,我们使用map函数对评分数据进行简单的预处理,只保留我们需要的字段。最后,我们打印了几个样本来检查数据的结构。

特征工程与数据预处理

特征工程是构建有效推荐系统的关键步骤之一。在这个阶段,我们需要将原始数据转换为模型可以理解的格式,并尽可能提取有用的信息。

用户和电影ID的处理

用户ID和电影ID通常是类别型变量,我们需要将它们转换为数值型表示。一种常用的方法是使用整数编码:

# 创建用户ID和电影标题的词汇表
user_ids_vocabulary = tf.keras.layers.StringLookup(mask_token=None)
user_ids_vocabulary.adapt(ratings.map(lambda x: x["user_id"]))

movie_titles_vocabulary = tf.keras.layers.StringLookup(mask_token=None)
movie_titles_vocabulary.adapt(movies.map(lambda x: x["movie_title"]))

# 定义预处理层
class MovieLensModel(tf.keras.Model):

  def __init__(self):
    super().__init__()
    
    self.user_embedding = tf.keras.Sequential([
        user_ids_vocabulary,
        tf.keras.layers.Embedding(user_ids_vocabulary.vocabulary_size(), 64)
    ])
    
    self.movie_embedding = tf.keras.Sequential([
        movie_titles_vocabulary,
        tf.keras.layers.Embedding(movie_titles_vocabulary.vocabulary_size(), 64)
    ])

  def call(self, inputs):
    return (
        self.user_embedding(inputs["user_id"]),
        self.movie_embedding(inputs["movie_title"]),
    )

在这段代码中,我们首先创建了用户ID和电影标题的词汇表,然后使用这些词汇表来创建嵌入层。这些嵌入层将类别型的ID转换为密集的向量表示,这对于后续的神经网络处理非常重要。

处理评分数据

对于评分数据,我们需要将其归一化到一个合适的范围:

rating_normalizer = tf.keras.layers.Normalization(axis=None)
rating_normalizer.adapt(ratings.map(lambda x: x["user_rating"]))

这里我们使用了Keras的Normalization层来对评分进行归一化处理。这有助于模型更好地学习评分的分布。

构建推荐模型

现在我们已经准备好了数据,接下来就可以开始构建我们的推荐模型了。我们将分别构建检索模型和排序模型。

检索模型

检索模型的目标是快速从大量候选项中检索出潜在相关的物品。我们可以使用TensorFlow Recommenders提供的tfrs.models.Model作为基类来构建我们的检索模型:

import tensorflow_recommenders as tfrs

class MovieLensRetrieval(tfrs.Model):

  def __init__(self):
    super().__init__()
    self.query_model = tf.keras.Sequential([
        tf.keras.layers.StringLookup(
            vocabulary=user_ids_vocabulary, mask_token=None),
        tf.keras.layers.Embedding(user_ids_vocabulary.vocabulary_size(), 64),
    ])
    self.candidate_model = tf.keras.Sequential([
        tf.keras.layers.StringLookup(
            vocabulary=movie_titles_vocabulary, mask_token=None),
        tf.keras.layers.Embedding(movie_titles_vocabulary.vocabulary_size(), 64),
    ])
    self.task = tfrs.tasks.Retrieval(metrics=tfrs.metrics.FactorizedTopK(
        candidates=movies.batch(128).map(self.candidate_model)
    ))

  def compute_loss(self, features, training=False):
    query_embedding = self.query_model(features["user_id"])
    movie_embedding = self.candidate_model(features["movie_title"])
    return self.task(query_embedding, movie_embedding)

这个检索模型使用了简单的嵌入层来表示用户和电影。模型的目标是学习将用户和他们喜欢的电影映射到相似的向量空间中。

排序模型

排序模型则需要更精确地预测用户对特定电影的评分。我们可以使用一个简单的神经网络来实现这个任务:

class MovieLensRanking(tfrs.Model):

  def __init__(self):
    super().__init__()
    self.movie_model = MovieLensModel()
    self.rating_model = tf.keras.Sequential([
      tf.keras.layers.Dense(256, activation="relu"),
      tf.keras.layers.Dense(128, activation="relu"),
      tf.keras.layers.Dense(1),
    ])
    self.task = tfrs.tasks.Ranking(
      loss = tf.keras.losses.MeanSquaredError(),
      metrics=[tf.keras.metrics.RootMeanSquaredError()]
    )

  def call(self, features):
    user_embeddings, movie_embeddings = self.movie_model(features)
    return self.rating_model(
        tf.concat([user_embeddings, movie_embeddings], axis=1))

  def compute_loss(self, features, training=False):
    labels = features.pop("user_rating")