HugeCTR

HugeCTR是一个GPU加速的推荐框架，专为大型深度学习模型的训练和推理而设计。

设计目标：

快速：HugeCTR在包括MLPerf在内的推荐基准测试中表现出色。
简单：无论您是数据科学家还是机器学习从业者，我们都为任何人使用HugeCTR提供了大量的文档、笔记本和示例，使其变得简单易用。
领域特定：HugeCTR提供核心功能，使您能够高效地部署具有超大嵌入的推荐模型。

注意：如果您在使用HugeCTR时有任何问题，请提交issue或加入我们的Slack频道进行更多互动讨论。

核心功能

HugeCTR支持多种功能，包括以下内容：

要了解我们最新的改进，请参阅我们的发布说明。

入门指南

如果您想快速使用Python接口训练模型，请按以下步骤操作：

通过运行以下命令启动NGC容器，并挂载您的本地主机目录（/your/host/dir）：
```
docker run --gpus=all --rm -it --cap-add SYS_NICE -v /your/host/dir:/your/container/dir -w /your/container/dir -it -u $(id -u):$(id -g) nvcr.io/nvidia/merlin/merlin-hugectr:24.06
```
注意：/your/host/dir目录与**/your/container/dir目录一样可见。/your/host/dir**目录也是您的起始目录。

注意：HugeCTR使用NCCL在不同排之间共享数据，NCCL可能需要共享内存用于IPC和锁定（页锁定）系统内存资源。建议您通过在docker run命令中添加以下选项来增加这些资源：
```
-shm-size=1g -ulimit memlock=-1
```

编写一个简单的Python脚本来生成合成数据集：

# dcn_parquet_generate.py
import hugectr
from hugectr.tools import DataGeneratorParams, DataGenerator
data_generator_params = DataGeneratorParams(
  format = hugectr.DataReaderType_t.Parquet,
  label_dim = 1,
  dense_dim = 13,
  num_slot = 26,
  i64_input_key = False,
  source = "./dcn_parquet/file_list.txt",
  eval_source = "./dcn_parquet/file_list_test.txt",
  slot_size_array = [39884, 39043, 17289, 7420, 20263, 3, 7120, 1543, 39884, 39043, 17289, 7420, 
                     20263, 3, 7120, 1543, 63, 63, 39884, 39043, 17289, 7420, 20263, 3, 7120,
                     1543 ],
  dist_type = hugectr.Distribution_t.PowerLaw,
  power_law_type = hugectr.PowerLaw_t.Short)
data_generator = DataGenerator(data_generator_params)
data_generator.generate()

通过运行以下命令为您的DCN模型生成Parquet数据集：
```
python dcn_parquet_generate.py
```
注意：生成的数据集将位于./dcn_parquet文件夹中，其中包含训练和评估数据。

编写一个简单的Python训练脚本:

# dcn_parquet_train.py
import hugectr
from mpi4py import MPI
solver = hugectr.CreateSolver(max_eval_batches = 1280,
                              batchsize_eval = 1024,
                              batchsize = 1024,
                              lr = 0.001,
                              vvgpu = [[0]],
                              repeat_dataset = True)
reader = hugectr.DataReaderParams(data_reader_type = hugectr.DataReaderType_t.Parquet,
                                 source = ["./dcn_parquet/file_list.txt"],
                                 eval_source = "./dcn_parquet/file_list_test.txt",
                                 slot_size_array = [39884, 39043, 17289, 7420, 20263, 3, 7120, 1543, 39884, 39043, 17289, 7420, 
                                                   20263, 3, 7120, 1543, 63, 63, 39884, 39043, 17289, 7420, 20263, 3, 7120, 1543 ])
optimizer = hugectr.CreateOptimizer(optimizer_type = hugectr.Optimizer_t.Adam,
                                    update_type = hugectr.Update_t.Global)
model = hugectr.Model(solver, reader, optimizer)
model.add(hugectr.Input(label_dim = 1, label_name = "label",
                        dense_dim = 13, dense_name = "dense",
                        data_reader_sparse_param_array =
                        [hugectr.DataReaderSparseParam("data1", 1, True, 26)]))
model.add(hugectr.SparseEmbedding(embedding_type = hugectr.Embedding_t.DistributedSlotSparseEmbeddingHash,
                           workspace_size_per_gpu_in_mb = 75,
                           embedding_vec_size = 16,
                           combiner = "sum",
                           sparse_embedding_name = "sparse_embedding1",
                           bottom_name = "data1",
                           optimizer = optimizer))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.Reshape,
                           bottom_names = ["sparse_embedding1"],
                           top_names = ["reshape1"],
                           leading_dim=416))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.Concat,
                           bottom_names = ["reshape1", "dense"], top_names = ["concat1"]))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.MultiCross,
                           bottom_names = ["concat1"],
                           top_names = ["multicross1"],
                           num_layers=6))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.InnerProduct,
                           bottom_names = ["concat1"],
                           top_names = ["fc1"],
                           num_output=1024))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.ReLU,
                           bottom_names = ["fc1"],
                           top_names = ["relu1"]))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.Dropout,
                           bottom_names = ["relu1"],
                           top_names = ["dropout1"],
                           dropout_rate=0.5))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.Concat,
                           bottom_names = ["dropout1", "multicross1"],
                           top_names = ["concat2"]))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.InnerProduct,
                           bottom_names = ["concat2"],
                           top_names = ["fc2"],
                           num_output=1))
model.add(hugectr.DenseLayer(layer_type = hugectr.Layer_t.BinaryCrossEntropyLoss,
                           bottom_names = ["fc2", "label"],
                           top_names = ["loss"]))
model.compile()
model.summary()
model.graph_to_json(graph_config_file = "dcn.json")
model.fit(max_iter = 5120, display = 200, eval_interval = 1000, snapshot = 5000, snapshot_prefix = "dcn")

注意：确保合成数据集的路径相对于这个Python脚本是正确的。data_reader_type、check_type、label_dim、dense_dim和data_reader_sparse_param_array应与生成的数据集保持一致。

通过运行以下命令来训练模型：
```
python dcn_parquet_train.py
```
注意：由于使用的是随机生成的数据集，因此假定评估AUC值是不正确的。当训练完成后，将生成包含导出的图形JSON、保存的模型权重和优化器状态的文件。

更多信息，请参阅HugeCTR用户指南。

HugeCTR SDK

我们能够通过导出重要的HugeCTR组件来支持无法直接使用HugeCTR的外部开发者：

稀疏操作工具包目录 | 文档：一个为稀疏训练/推理场景设计的GPU加速操作的Python包。
GPU嵌入缓存：为CTR推理工作负载设计的可用于GPU内存的嵌入缓存。

支持和反馈

如果您遇到任何问题或有疑问，请访问https://github.com/NVIDIA/HugeCTR/issues并提交问题，以便我们能够为您提供必要的解决方案和答案。为了进一步推进HugeCTR的路线图，我们鼓励您使用这个调查问卷分享有关您的推荐系统管道的所有详细信息。

为HugeCTR做贡献

HugeCTR是一个开源项目，我们欢迎公众的贡献。通过您的贡献，我们可以继续提高HugeCTR的质量和性能。要了解如何贡献，请参阅我们的HugeCTR贡献者指南。

其他资源

网页
NVIDIA Merlin
NVIDIA HugeCTR

出版物

Yingcan Wei, Matthias Langer, Fan Yu, Minseok Lee, Jie Liu, Ji Shi and Zehuan Wang, "针对大规模深度推荐模型的GPU专用推理参数服务器,"第16届ACM推荐系统会议论文集，第408-419页，2022年。

Zehuan Wang, Yingcan Wei, Minseok Lee, Matthias Langer, Fan Yu, Jie Liu, Shijie Liu, Daniel G. Abel, Xu Guo, Jianbing Dong, Ji Shi and Kunlun Li, "Merlin HugeCTR：GPU加速的推荐系统训练和推理,"第16届ACM推荐系统会议论文集，第534-537页，2022年。

演讲

会议 / 网站	标题	日期	演讲者	语言
ACM RecSys 2022	面向大规模深度推荐模型的GPU专用推理参数服务器	2022年9月	Matthias Langer	英语
短视频系列第1集	Merlin HugeCTR：GPU 加速的推荐系统框架	2022年5月	Joey Wang	中文
短视频系列第2集	HugeCTR 分级参数服务器如何加速推理	2022年5月	Joey Wang	中文
短视频系列第3集	使用 HugeCTR SOK 加速 TensorFlow 训练	2022年5月	Gems Guo	中文
GTC 2022春季大会	Merlin HugeCTR：使用GPU嵌入缓存的分布式分层推理参数服务器	2022年3月	Matthias Langer, Yingcan Wei, Yu Fan	英语
阿里云栖大会2021	GPU 推荐系统 Merlin	2021年10月	Joey Wang	中文
GTC 2021春季大会	了解腾讯如何在Merlin GPU推荐框架上部署广告系统	2021年4月	Xiangting Kong, Joey Wang	英语
GTC 2021春季大会	Merlin HugeCTR：深入性能优化	2021年4月	Minseok Lee	英语
GTC 2021春季大会	将HugeCTR嵌入集成到TensorFlow中	2021年4月	Jianbing Dong	英语
GTC中国2020	MERLIN HUGECTR ：深入研究性能优化	2020年10月	Minseok Lee	英语
GTC中国2020	性能提升 7 倍 + 的高性能 GPU 广告推荐加速系统的落地实现	2020年10月	Xiangting Kong	中文
GTC中国2020	使用 GPU EMBEDDING CACHE 加速 CTR 推理过程	2020年10月	Fan Yu	中文
GTC中国2020	将 HUGECTR EMBEDDING 集成于 TENSORFLOW	2020年10月	Jianbing Dong	中文
GTC 2020春季大会	HugeCTR：高性能点击率估算训练	2020年3月	Minseok Lee, Joey Wang	英语
GTC中国2019	HUGECTR: GPU 加速的推荐系统训练	2019年10月	Joey Wang	中文

博客

会议 / 网站	标题	日期	作者	语言
微信博客	Merlin HugeCTR 分级参数服务器系列之三：集成到TensorFlow	2022年11月	Kingsley Liu	中文
NVIDIA开发者博客	使用 Merlin 分层参数服务器扩展推荐系统推理	2022年8月	Shashank Verma, Wenwen Gao, Yingcan Wei, Matthias Langer, Jerry Shi, Fan Yu, Kingsley Liu, Minseok Lee	英语/中文
NVIDIA开发者博客	Merlin HugeCTR Sparse Operation Kit 系列之二	2022年6月	Kunlun Li	中文
NVIDIA开发者博客	Merlin HugeCTR Sparse Operation Kit 系列之一	2022年3月	Gems Guo, Jianbing Dong	中文
微信博客	Merlin HugeCTR 分级参数服务器系列之二	2022年3月	Yingcan Wei, Matthias Langer, Jerry Shi	中文
微信博客	Merlin HugeCTR 分级参数服务器系列之一	2022年1月	Yingcan Wei, Jerry Shi	中文
NVIDIA开发者博客	使用HugeCTR TensorFlow嵌入插件加速嵌入	2021年9月	Vinh Nguyen, Ann Spencer, Joey Wang and Jianbing Dong	英语
medium.com	优化美团的机器学习平台：黄俊访谈	2021年9月	Sheng Luo and Benedikt Schifferer	英语
medium.com	领导腾讯广告推荐系统的设计和开发：孔祥婷访谈	2021年9月	Xiangting Kong, Ann Spencer	英语
NVIDIA开发者博客	扩展和加速大型深度学习推荐系统 – HugeCTR 系列第 1 部分	2021年6月	Minseok Lee	中文
NVIDIA开发者博客	使用 Merlin HugeCTR 的 Python API 训练大型深度学习推荐模型 – HugeCTR 系列第 2 部分	2021年6月	Vinh Nguyen	中文
medium.com	使用Merlin HugeCTR的Python API训练大型深度学习推荐模型 — HugeCTR系列第2部分	2021年5月	Minseok Lee, Joey Wang, Vinh Nguyen and Ashish Sardana	英语
medium.com	扩展和加速大型深度学习推荐系统 — HugeCTR系列第1部分	2021年5月	Minseok Lee	英语
IRS 2020	Merlin：GPU加速的推荐框架	2020年8月	Even Oldridge等	英语
NVIDIA开发者博客	介绍NVIDIA Merlin HugeCTR：专门用于推荐系统的训练框架	2020年7月	Minseok Lee and Joey Wang	英语