使用GAN分享网络时间序列数据:挑战、初步前景和开放性问题

之前的标题: 使用DoppelGANger生成高保真度的合成时间序列数据集

[论文 (arXiv)] [论文 (IMC 2020, 最佳论文入围)] [演讲] [代码]

作者: Zinan Lin (CMU), Alankar Jain (CMU), Chen Wang (IBM), Giulia Fanti (CMU), Vyas Sekar (CMU)

摘要: 数据访问受限一直是网络系统社区数据驱动研究和开发的长期障碍。在这项工作中,我们探讨了是否以及如何使用生成对抗网络(GANs)来激励数据共享,通过实现一个通用框架来共享合成数据集,而只需最少的专家知识。作为具体目标,本文重点关注带有元数据的时间序列数据集(例如,带有相应ISP的数据包丢失率测量)。我们发现现有GAN方法在这类工作负载中存在一些关键挑战,包括保真度(如长期依赖性、复杂的多维关系、模式崩溃)和隐私(即现有保证理解不足,可能会牺牲保真度)。为了提高保真度,我们设计了一个名为DoppelGANger(DG)的自定义工作流程,并证明在各种现实世界数据集(如带宽测量、集群请求、网络会话)和用例(如结构表征、预测建模、算法比较)中,DG比基线模型的保真度最高可提高43%。虽然我们在这项工作中没有解决隐私问题,但我们确定了经典隐私概念和最近改进GAN隐私属性的进展所面临的根本性挑战,并提出了解决这些挑战的潜在路线图。通过阐明前景和挑战,我们希望我们的工作能重新引发关于数据共享工作流程的讨论。

用户

DoppelGANger已被多个独立用户/公司使用。请查看以下链接了解更多信息:

Hazy: (1) Hazy基于新技术生成顺序和时间序列合成数据, (2) 使用GAN生成合成顺序数据
Boogie: 使用生成对抗网络合成一系列交易
Gretel.ai: 使用开源工具生成合成时间序列数据
YData: (1) 使用DoppelGANger生成合成时间序列数据, (2) 使用GAN生成时间序列合成数据:DoppelGANger

本仓库包含DoppelGANger的代码。代码已在Python 2.7.5和Python 3.5.2、TensorFlow 1.4.0(但应该也适用于所有1.4.0 - 1.15版本的TensorFlow)下进行了测试。

数据集格式

请注意,论文中的"metadata"在代码中表示为"attribute";"measurement"在代码中表示为"feature"。要为您的数据训练DoppelGANger,您需要按照以下格式准备数据,其中包含三个文件:

data_feature_output.pkl：一个包含 gan.output.Output 对象列表的pickle转储文件，表示每个特征的维度、类型和归一化方式。
data_attribute_output.pkl：一个包含 gan.output.Output 对象列表的pickle转储文件，表示每个属性的维度、类型和归一化方式。
data_train.npz：一个包含以下三个数组的numpy .npz 归档文件：
- data_feature：训练特征，以numpy float32数组格式存储。大小为[（训练样本数）x（最大长度）x（特征总维度）]。分类特征以独热编码方式存储；例如，如果一个分类特征有3种可能性，则它可以取值为 [1., 0., 0.]、[0., 1., 0.] 和 [0., 0., 1.]。每个连续特征应归一化到 [0, 1] 或 [-1, 1]。时间序列结束后，数组用零填充。
- data_attribute：训练属性，以numpy float32数组格式存储。大小为[（训练样本数）x（属性总维度）]。分类属性以独热编码方式存储；例如，如果一个分类属性有3种可能性，则它可以取值为 [1., 0., 0.]、[0., 1., 0.] 和 [0., 0., 1.]。每个连续属性应归一化到 [0, 1] 或 [-1, 1]。
- data_gen_flag：表示特征激活的标志，以numpy float32数组格式存储。大小为[（训练样本数）x（最大长度）]。1表示时间序列在此时间步激活，0表示时间序列在此时间步未激活。

让我们看一个具体的例子。假设有两个特征（一个归一化到[0,1]的1维连续特征和一个2维分类特征）和两个属性（一个归一化到[-1, 1]的2维连续属性和一个3维分类属性）。那么 data_feature_output 和 data_attribute_output 应该是：

data_feature_output = [
	Output(type_=CONTINUOUS, dim=1, normalization=ZERO_ONE, is_gen_flag=False),
	Output(type_=DISCRETE, dim=2, normalization=None, is_gen_flag=False)]
	
data_attribute_output = [
	Output(type_=CONTINUOUS, dim=2, normalization=MINUSONE_ONE, is_gen_flag=False),
	Output(type_=DISCRETE, dim=3, normalization=None, is_gen_flag=False)]

注意，is_gen_flag 应始终设置为 False（默认值）。is_gen_flag=True 仅供内部使用（详见 doppelganger.py 中的注释）。

假设有两个样本，其长度分别为2和4，并假设最大长度设置为4。那么 data_feature、data_attribute 和 data_gen_flag 可能是：

data_feature = [
	[[0.2, 1.0, 0.0], [0.4, 0.0, 1.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]],
	[[0.9, 0.0, 1.0], [0.3, 0.0, 1.0], [0.2, 0.0, 1.0], [0.8, 1.0, 0.0]]]
	
data_attribute = [
	[-0.2, 0.3, 1.0, 0.0, 0.0],
	[0.2, 0.3, 0.0, 1.0, 0.0]]
	
data_gen_flag = [
	[1.0, 1.0, 0.0, 0.0],
	[1.0, 1.0, 1.0, 1.0]]

我们在论文中使用的数据集（维基百科网络流量、谷歌集群使用跟踪、衡量美国宽带）可以在这里找到。

运行 DoppelGANger

代码基于 GPUTaskScheduler 库，该库可帮助您自动在 GPU 节点之间调度任务。请先安装它。您可能需要根据您拥有的设备更改 GPU 配置。配置设置在每个目录中的 config*.py 文件中。有关如何进行正确配置的详细信息，请参阅 GPUTaskScheduler 的 GitHub 页面。

您也可以不使用 GPUTaskScheduler 运行这些代码。请参考 example_training(without_GPUTaskScheduler) 中的 main.py 作为示例。

DoppelGANger 的实现位于 gan/doppelganger.py。您可以参考其中的注释了解详细信息。在此，我们提供了在论文中提到的三个数据集（Wikipedia Web Traffic、Google Cluster Usage Traces、Measuring Broadband America）上训练 DoppelGANger 的代码，并给出了使用 DoppelGANger 生成数据和重新训练属性生成网络的示例。

下载数据集

在运行代码之前，请在此处下载三个数据集，并将其放在 data 文件夹下。

训练 DoppelGANger

cd example_training
python main.py

使用 DoppelGANger 生成数据

cd example_generating_data
python main_generate_data.py

重新训练 DoppelGANger 的属性生成网络

将具有所需属性分布的数据放入 data/web_retraining，然后运行：

cd example_retraining_attribute
python main.py

差分隐私（DP）版本

要运行 DoppelGANger 的差分隐私版本（论文中的第 6.2 节），请先安装 TensorFlow Privacy 库。

训练 DP DoppelGANger

cd example_dp_training
python main.py

使用 DP DoppelGANger 生成数据

cd example_dp_generating_data
python main_generate_data.py

自定义 DoppelGANger

您可以在 config*.py 中调整配置（例如，是否使用辅助判别器）。

主要参数的含义如下：

epoch: 训练轮数。
batch_size: 训练批次大小。
sample_len: 时间序列批次大小，即每次RNN展开生成的时间步数（第4.1节中的参数S）。
aux_disc: 是否使用辅助判别器（第4.3节）。
self_norm: 是否对每个时间序列进行自动归一化（第4.2节）。
num_packing: PacGAN中的打包程度（一种解决NeurIPS 2018中模式崩溃的方法，参见论文和代码）。将其设置为1等同于不使用打包的普通GAN。
noise: 是否在每次RNN展开时输入噪声。
feed_back: 是否在每次RNN展开时输入上一次展开生成的值。
g_lr: 训练生成器时Adam优化器的学习率。
d_lr: 训练判别器时Adam优化器的学习率。
d_gp_coe: Wasserstein GAN中判别器梯度惩罚损失的权重。
attr_d_lr: 训练辅助判别器时Adam优化器的学习率。
attr_d_gp_coe: Wasserstein GAN中辅助判别器梯度惩罚损失的权重。
d_rounds: 每批次判别器训练步数。
g_rounds: 每批次生成器训练步数。
gen_feature_num_layers: 时间序列生成器（RNN）的层数。
gen_feature_num_units: 时间序列生成器（RNN）每层的单元数。
gen_attribute_num_layers: 属性（元数据）生成器的层数。
gen_attribute_num_units: 属性（元数据）生成器每层的单元数。
attr_disc_num_layers: 辅助判别器的层数。
attr_disc_num_units: 辅助判别器每层的单元数。
disc_num_layers: 判别器的层数。
disc_num_units: 辅助判别器每层的单元数。
initial_state: RNN的初始状态："random"表示将初始状态设置为随机数；"zero"表示将初始状态设置为零；"variable"表示将初始状态设置为可学习参数。
extra_checkpoint_freq: 将训练好的模型保存到单独文件夹的频率（单位：轮）。
epoch_checkpoint_freq: 保存训练好的模型的频率（单位：轮）。
vis_freq: 训练期间可视化生成样本的频率（单位：训练批次）。
vis_num_sample: 每次训练期间可视化的样本数量。