Tab-Transformer是一个基于Pytorch实现的用于表格数据的注意力网络。它的设计对标GBDT(梯度提升决策树),并在性能上非常接近。而据亚马逊AI的最新研究,在实际数据集(如预测运费)上,通过使用Attention机制有可能超越GBDT的表现。
这个项目可以通过简单的pip命令来安装:
$ pip install tab-transformer-pytorch
Tab Transformer允许用户在处理分类和连续数值数据时,利用Transformers的优势。下面是一个简单的代码示例。
import torch import torch.nn as nn from tab_transformer_pytorch import TabTransformer cont_mean_std = torch.randn(10, 2) model = TabTransformer( categories = (10, 5, 6, 5, 8), # 每个分类特征的唯一值数量 num_continuous = 10, # 连续数值特征的数量 dim = 32, # 模型的维度 dim_out = 1, # 输出的维度,适用于二分类任务 depth = 6, # 模型的深度 heads = 8, # 注意力头的数量 attn_dropout = 0.1, # 注意力dropout比率 ff_dropout = 0.1, # 前馈dropout比率 mlp_hidden_mults = (4, 2), # 多层感知机隐藏层尺寸的倍数 mlp_act = nn.ReLU(), # 多层感知机的激活函数 continuous_mean_std = cont_mean_std # 归一化连续值的选项 ) x_categ = torch.randint(0, 5, (1, 5)) # 分类特征值 x_cont = torch.randn(1, 10) # 连续特征值 pred = model(x_categ, x_cont) # 模型预测输出
FT Transformer是由Yandex在Tab Transformer的基础上提出的一种改进方法。它采用了一种更简单的方案来嵌入连续的数值特征。以下是其在本项目中的实现示例:
import torch from tab_transformer_pytorch import FTTransformer model = FTTransformer( categories = (10, 5, 6, 5, 8), num_continuous = 10, dim = 32, dim_out = 1, depth = 6, heads = 8, attn_dropout = 0.1, ff_dropout = 0.1 ) x_categ = torch.randint(0, 5, (1, 5)) x_numer = torch.randn(1, 10) pred = model(x_categ, x_numer)
若想进行论文中描述的无监督训练类型,用户可以首先将分类标记转换为相应的唯一id,然后在model.transformer上应用相应的方法。
如果您在研究中使用了这个项目,我们建议您引用以下工作:
@misc{huang2020tabtransformer, title = {TabTransformer: Tabular Data Modeling Using Contextual Embeddings}, author = {Xin Huang and Ashish Khetan and Milan Cvitkovic and Zohar Karnin}, year = {2020}, eprint = {2012.06678}, archivePrefix = {arXiv}, primaryClass = {cs.LG} } @article{Gorishniy2021RevisitingDL, title = {Revisiting Deep Learning Models for Tabular Data}, author = {Yu. V. Gorishniy and Ivan Rubachev and Valentin Khrulkov and Artem Babenko}, journal = {ArXiv}, year = {2021}, volume = {abs/2106.11959} }
通过这篇介绍,希望能让读者对Tab-Transformer-PyTorch项目有一个初步的了解,并能在自己的任务中探索其应用潜力!


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创 建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

