SALT: Sales Autocompletion Linked Business Tables Dataset
收藏arXiv2025-01-07 更新2025-01-09 收录
下载链接:
https://github.com/sap-samples/SALT
下载链接
链接失效反馈官方服务:
资源简介:
SALT数据集是一个专门为企业资源规划(ERP)系统设计的销售自动补全链接业务表格数据集,由SAP SE的研究团队创建。该数据集包含四个主要表格:销售订单、销售订单项、客户和地址,共计500,908条销售订单记录,涉及2,319,944个销售订单项、139,611个唯一业务伙伴和1,788,887个地址。数据集的内容涵盖了2018年1月1日至2020年12月31日期间的交易数据,经过匿名化处理以保护隐私。数据集的创建过程包括从ERP系统中提取数据并进行筛选和合并,最终形成一个扁平化的数据集。该数据集的主要应用领域是销售订单的自动补全和预测,旨在解决企业环境中多表链接数据的复杂性和动态性问题,推动表格表示学习的研究和算法开发。
The SALT dataset is a business tabular dataset designed specifically for sales auto-completion linking tasks in Enterprise Resource Planning (ERP) systems, created by the research team of SAP SE. This dataset includes four core tables: sales orders, sales order line items, customers, and addresses, with a total of 500,908 sales order records, involving 2,319,944 sales order line items, 139,611 unique business partners, and 1,788,887 addresses. The dataset covers transaction data spanning from January 1, 2018 to December 31, 2020, and has been anonymized to protect privacy. The dataset was constructed by extracting raw data from ERP systems, followed by data filtering and merging, and ultimately formed into a flattened tabular dataset. Its core application scenarios are sales order auto-completion and prediction, aiming to address the complexity and dynamics of multi-table linked data in enterprise environments, and advance the research and algorithm development for tabular representation learning.
提供机构:
SAP SE
创建时间:
2025-01-07
搜集汇总
数据集介绍

构建方式
SALT数据集源自企业资源规划(ERP)系统,旨在支持表格表示学习的研究。该数据集通过从ERP系统中提取并整合多个相互关联的业务表格构建而成,涵盖了销售文档、销售文档项、客户和地址等核心表格。数据经过严格的隐私保护处理,确保所有敏感信息被匿名化处理,同时保留了数据的真实性和复杂性。通过这种方式,SALT数据集能够准确反映企业环境中的多表关联数据,为研究提供了高质量的实验基础。
特点
SALT数据集的特点在于其高度结构化和多表关联的特性。数据集包含四个主要表格,涵盖了超过50万笔销售订单及其相关项,涉及近14万客户和近180万地址信息。数据集中包含丰富的分类变量和数值变量,能够有效模拟企业销售流程中的复杂交互。此外,数据集还展示了显著的数据多样性、类别不平衡以及输入噪声等现实世界数据的典型特征,为模型训练提供了更具挑战性的环境。
使用方法
SALT数据集的使用方法主要围绕表格表示学习和预测任务展开。研究人员可以通过该数据集训练模型,预测销售订单中的缺失字段,如销售办公室、销售组、付款条件等。数据集已按时间划分为训练集、验证集和测试集,便于进行时间序列分析和模型评估。使用该数据集时,建议结合多表关联的特性,采用适合结构化数据的深度学习模型或树模型进行训练,以充分利用其复杂性和多样性。
背景与挑战
背景概述
SALT(Sales Autocompletion Linked Business Tables)数据集由SAP SE的研究团队于2025年推出,旨在解决企业资源规划(ERP)系统中多表关联数据的表示学习问题。该数据集源自真实的ERP系统,涵盖了销售订单、销售订单项、客户和地址等多个关联表,数据量达数百万条。SALT的创建背景源于当前深度学习模型在处理结构化数据,尤其是多表关联数据时的局限性。尽管Transformer架构在自然语言处理和图像处理领域表现出色,但其在结构化数据中的应用仍面临显著挑战。SALT的推出填补了企业级多表关联数据集的空白,为研究社区提供了一个真实且复杂的数据环境,推动了表格表示学习领域的发展。
当前挑战
SALT数据集在解决企业级多表关联数据的表示学习问题时,面临多重挑战。首先,数据的高维性和复杂性使得模型难以有效捕捉表间关系,尤其是在处理外键关联的多表数据时,模型需要同时兼顾表内和表间的结构信息。其次,数据集中存在显著的类别不平衡问题,例如某些销售办公室占据了大部分订单,导致模型在预测少数类别时表现不佳。此外,数据噪声和数据漂移问题也增加了建模的难度,尤其是在手动数据录入和业务规则随时间变化的情况下。最后,数据隐私和商业机密限制了公开数据的获取,使得构建大规模、高质量的企业级数据集成为一项艰巨任务。
常用场景
经典使用场景
SALT数据集在企业资源规划(ERP)系统中被广泛用于销售订单的自动补全任务。通过提供真实的销售数据,该数据集支持研究人员开发能够预测销售订单中缺失字段的模型,从而提升销售流程的自动化水平。数据集中的多表结构模拟了实际企业环境中的复杂数据关系,使得模型能够在真实场景中进行训练和验证。
实际应用
在实际应用中,SALT数据集被用于优化企业销售流程,特别是在销售订单的自动补全和预测任务中。通过训练模型预测销售订单中的关键字段,如销售办公室、销售组、付款条件等,企业能够显著提升销售订单处理的效率和准确性。此外,该数据集还可用于开发智能推荐系统,帮助企业优化库存管理和物流安排。
衍生相关工作
SALT数据集的发布推动了多个相关领域的研究进展。基于该数据集,研究人员开发了多种表表示学习模型,如CARTE和AutoGluon,这些模型在销售订单预测任务中表现出色。此外,SALT数据集还激发了更多关于企业级多表数据处理的研究,进一步推动了深度学习在结构化数据领域的应用。
以上内容由遇见数据集搜集并总结生成



