five

SALT: Sales Autocompletion Linked Business Tables Dataset

收藏
github2024-11-15 更新2024-11-27 收录
下载链接:
https://github.com/SAP-samples/salt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集源自企业资源规划(ERP)系统,包含广泛的链接表格,旨在支持表格表示学习的研究。通过提供真实的企业数据,目标是增强模型在实际业务环境中的有效性和适用性。

This dataset is derived from Enterprise Resource Planning (ERP) systems and includes a wide range of linked tables, aiming to support research on table representation learning. By providing authentic enterprise data, its objective is to enhance the effectiveness and applicability of models in real-world business environments.
创建时间:
2024-10-29
原始信息汇总

SALT: Sales Autocompletion Linked Business Tables Dataset

描述

该仓库将包含数据和代码,用于我们的论文SALT: Sales Autocompletion Linked Business Tables Dataset,该论文将在NeurIPS24 Table Representation Workshop上展示。

摘要

基础模型,特别是那些结合了Transformer架构的模型,在自然语言处理和图像处理等领域表现出色。然而,将这些模型适应于结构化数据(如表格)时,会引入重大挑战。当处理通过外键链接的多表数据时,这些困难更加明显,这在企业领域中非常普遍,对于支持业务用例至关重要。尽管其影响巨大,但针对企业环境中此类链接业务表格的研究仍然是一个重要且未被充分探索的领域。 为了解决这一问题,我们引入了一个从企业资源规划(ERP)系统中提取的精心策划的数据集,该数据集包含广泛的链接表格。该数据集专门设计用于支持表格表示学习的研究工作。通过提供真实的企业数据访问权限,我们的目标是潜在地提高模型在现实世界业务场景中的有效性和适用性。

信息

SALT数据集的表格模式 SALT数据集的表格模式

销售订单输入掩码的截图 使用SAP S4/HANA的销售订单应用程序的示例输入掩码

已知问题

无已知问题

引用

如果您在研究中使用此代码或希望引用我们的工作,请引用:

@inproceedings{ klein2024salt, title={{SALT}: Sales Autocompletion Linked Business Tables Dataset}, author={Tassilo Klein and Clemens Biehl and Margarida Costa and Andre Sres and Jonas Kolk and Johannes Hoffart}, booktitle={NeurIPS 2024 Third Table Representation Learning Workshop}, year={2024}, url={https://openreview.net/forum?id=UZbELpkWIr} }

路线图

  • [ ] 发布数据集

如何获取支持

如果您发现错误或有关于内容的问题,请在此仓库中创建一个问题

贡献

如果您希望贡献代码、提供修复或改进,请发送拉取请求。由于法律原因,贡献者在创建第一个拉取请求时将被要求接受DCO。这将在提交过程中自动进行。SAP使用Linux基金会的标准DCO文本

许可证

版权所有 (c) 2024 SAP SE 或 SAP 关联公司。保留所有权利。本项目根据 CC-BY-NC-SA 软件许可证版本 4.0 授权,除非在 LICENSE 文件中另有说明。

搜集汇总
数据集介绍
main_image_url
构建方式
在企业资源规划(ERP)系统的背景下,SALT数据集通过精心筛选和整理,汇集了大量关联的业务表格。这些表格通过外键相互连接,模拟了真实企业环境中的数据结构。数据集的构建旨在支持表格表示学习领域的研究,特别是针对多表格数据处理的挑战。通过提供真实的企业数据,SALT数据集旨在为模型在实际业务场景中的应用提供有力支持。
特点
SALT数据集的显著特点在于其高度结构化的数据和丰富的关联信息。数据集中的表格不仅包含了详细的业务数据,还通过外键建立了复杂的关联关系,这使得数据集在处理多表格数据时具有极高的实用价值。此外,SALT数据集还提供了详细的表格模式和实际业务应用的输入掩码示例,为研究者提供了直观的数据理解和应用参考。
使用方法
使用SALT数据集时,研究者可以通过访问GitHub仓库获取数据和相关代码。数据集的表格模式和示例应用截图提供了数据结构的直观理解,有助于快速上手。研究者可以利用这些数据进行表格表示学习、多表格数据处理等领域的研究。此外,数据集的开放性和详细的使用说明,使得研究者能够方便地进行数据处理和模型训练,从而推动相关领域的技术进步。
背景与挑战
背景概述
在企业资源规划(ERP)系统中,多表数据通过外键链接,这种结构在企业环境中普遍存在,对于支持复杂的商业用例至关重要。然而,现有的研究在处理这种链接业务表方面仍存在显著的不足。为此,Tassilo Klein及其团队于2024年创建了SALT数据集,该数据集源自一个真实的ERP系统,包含了大量链接的表格。SALT数据集的推出旨在填补这一研究空白,通过提供真实的企业数据,推动表征学习模型在实际商业场景中的应用和效果提升。
当前挑战
SALT数据集面临的挑战主要集中在两个方面:首先,如何有效地将Transformer架构等基础模型应用于结构化数据,特别是多表链接数据,这一问题在企业环境中尤为复杂。其次,数据集的构建过程中,如何确保数据的真实性和完整性,同时保护企业的敏感信息,也是一个不容忽视的难题。此外,尽管SALT数据集旨在支持表征学习研究,但其广泛应用仍需克服数据隐私和安全性的挑战。
常用场景
经典使用场景
在企业资源规划(ERP)系统的背景下,SALT数据集的经典使用场景主要集中在销售自动补全和多表关联分析。该数据集通过提供丰富的链表结构,支持研究人员在表表示学习领域进行深入探索。具体而言,研究人员可以利用SALT数据集训练和验证基于Transformer架构的模型,以实现对销售订单等业务数据的自动补全和关联分析,从而提高企业决策的效率和准确性。
实际应用
在实际应用中,SALT数据集可广泛应用于企业资源规划(ERP)系统的优化和改进。例如,企业可以利用该数据集训练的模型,实现销售订单的自动补全和关联数据的智能分析,从而提高业务流程的自动化水平和决策支持能力。此外,SALT数据集还可用于开发和测试新的业务应用,如供应链管理、客户关系管理等,进一步提升企业的运营效率和市场竞争力。
衍生相关工作
基于SALT数据集,研究人员已开展了一系列相关工作,特别是在表表示学习和企业数据分析领域。例如,有研究利用该数据集开发了新的表数据处理算法,显著提高了多表关联分析的准确性和效率。此外,还有工作探索了如何将Transformer模型应用于企业数据处理,取得了显著的性能提升。这些衍生工作不仅丰富了表表示学习的理论体系,也为实际业务应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作