tab-transformer-pytorch

tab-transformer-pytorch

表格数据处理的注意力网络新突破

Tab Transformer项目在Pytorch中实现了表格数据的注意力网络,性能接近GBDT。亚马逊最新研究称在实际表格数据集上使用注意力机制超越了GBDT。项目提供详细安装和使用说明,并包含改进的FT Transformer模型以供比较。

Tab TransformerFT TransformerPytorch表格数据亚马逊AIGithub开源项目

项目介绍:Tab-Transformer-PyTorch

项目背景

Tab-Transformer是一个基于Pytorch实现的用于表格数据的注意力网络。它的设计对标GBDT(梯度提升决策树),并在性能上非常接近。而据亚马逊AI的最新研究,在实际数据集(如预测运费)上,通过使用Attention机制有可能超越GBDT的表现。

安装指南

这个项目可以通过简单的pip命令来安装:

$ pip install tab-transformer-pytorch

如何使用Tab Transformer

Tab Transformer允许用户在处理分类和连续数值数据时,利用Transformers的优势。下面是一个简单的代码示例。

import torch import torch.nn as nn from tab_transformer_pytorch import TabTransformer cont_mean_std = torch.randn(10, 2) model = TabTransformer( categories = (10, 5, 6, 5, 8), # 每个分类特征的唯一值数量 num_continuous = 10, # 连续数值特征的数量 dim = 32, # 模型的维度 dim_out = 1, # 输出的维度,适用于二分类任务 depth = 6, # 模型的深度 heads = 8, # 注意力头的数量 attn_dropout = 0.1, # 注意力dropout比率 ff_dropout = 0.1, # 前馈dropout比率 mlp_hidden_mults = (4, 2), # 多层感知机隐藏层尺寸的倍数 mlp_act = nn.ReLU(), # 多层感知机的激活函数 continuous_mean_std = cont_mean_std # 归一化连续值的选项 ) x_categ = torch.randint(0, 5, (1, 5)) # 分类特征值 x_cont = torch.randn(1, 10) # 连续特征值 pred = model(x_categ, x_cont) # 模型预测输出

FT Transformer改进

FT Transformer是由Yandex在Tab Transformer的基础上提出的一种改进方法。它采用了一种更简单的方案来嵌入连续的数值特征。以下是其在本项目中的实现示例:

import torch from tab_transformer_pytorch import FTTransformer model = FTTransformer( categories = (10, 5, 6, 5, 8), num_continuous = 10, dim = 32, dim_out = 1, depth = 6, heads = 8, attn_dropout = 0.1, ff_dropout = 0.1 ) x_categ = torch.randint(0, 5, (1, 5)) x_numer = torch.randn(1, 10) pred = model(x_categ, x_numer)

关于无监督训练

若想进行论文中描述的无监督训练类型,用户可以首先将分类标记转换为相应的唯一id,然后在model.transformer上应用相应的方法。

待办事项

  • 考虑加入新的研究和改进算法。

引用

如果您在研究中使用了这个项目,我们建议您引用以下工作:

@misc{huang2020tabtransformer, title = {TabTransformer: Tabular Data Modeling Using Contextual Embeddings}, author = {Xin Huang and Ashish Khetan and Milan Cvitkovic and Zohar Karnin}, year = {2020}, eprint = {2012.06678}, archivePrefix = {arXiv}, primaryClass = {cs.LG} } @article{Gorishniy2021RevisitingDL, title = {Revisiting Deep Learning Models for Tabular Data}, author = {Yu. V. Gorishniy and Ivan Rubachev and Valentin Khrulkov and Artem Babenko}, journal = {ArXiv}, year = {2021}, volume = {abs/2106.11959} }

通过这篇介绍,希望能让读者对Tab-Transformer-PyTorch项目有一个初步的了解,并能在自己的任务中探索其应用潜力!

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多