five

SALT

收藏
Hugging Face2024-12-16 更新2024-12-17 收录
下载链接:
https://huggingface.co/datasets/sap-ai-research/SALT
下载链接
链接失效反馈
官方服务:
资源简介:
SALT数据集是一个专门为表格表示学习研究设计的,来源于企业资源规划(ERP)系统的数据集。该数据集包含了大量通过外键链接的表格,这些表格在企业环境中非常普遍,对于支持业务用例至关重要。数据集的目标是通过提供真实的企业数据,来增强模型在实际业务场景中的有效性和适用性。
创建时间:
2024-12-16
原始信息汇总

SALT: Sales Autocompletion Linked Business Tables Dataset

基本信息

  • 许可证: CC BY-NC-SA 4.0
  • 发布日期:
    • 12/15/2024: 初步数据集在Hugging Face上可用
    • 12/13/2024: 提供数据
    • 10/29/2024: 初步仓库创建

摘要

SALT数据集是从企业资源计划(ERP)系统中提取的,包含大量链接表的精选数据集。该数据集旨在支持表表示学习研究,特别是针对企业环境中多表数据的研究。通过提供真实的企业数据,该数据集的目标是增强模型在实际业务场景中的有效性和适用性。

数据集信息

使用方法

数据集以Parquet格式提供,可以使用Pandas加载。示例代码如下:

python import pandas as pd

加载表数据

salesdocuments = pd.read_parquet("data/I_SalesDocument.parquet") salesdocument_items = pd.read_parquet("data/I_SalesDocumentItem.parquet") customers = pd.read_parquet("data/I_Customer.parquet") addresses = pd.read_parquet("data/I_AddrOrgNamePostalAddress.parquet")

显示前几行数据

salesdocuments.head()

作者

  • Tassilo Klein
  • Clemens Biehl
  • Margarida Costa
  • Jonas Kolk
  • Johannes Hoffart

引用

如果使用该数据集,请引用以下内容:

@inproceedings{ klein2024salt, title={{SALT}: Sales Autocompletion Linked Business Tables Dataset}, author={Tassilo Klein and Clemens Biehl and Margarida Costa and Andre Sres and Jonas Kolk and Johannes Hoffart}, booktitle={NeurIPS 2024 Third Table Representation Learning Workshop}, year={2024}, url={https://openreview.net/forum?id=UZbELpkWIr} }

路线图

  • [ ] 集成到RelBench,2025年2月
  • [x] 发布数据集
搜集汇总
数据集介绍
main_image_url
构建方式
SALT数据集源自企业资源规划(ERP)系统,经过精心筛选与整理,涵盖了多个相互关联的业务表格。这些表格通过外键连接,反映了企业内部复杂的业务流程。数据集的构建旨在模拟真实的商业环境,为研究表格表示学习提供了丰富的资源。通过提取和整合ERP系统中的销售订单、客户信息、地址等关键数据,SALT数据集为研究者提供了一个多表关联的结构化数据集,以支持模型在实际业务场景中的应用。
特点
SALT数据集的核心特点在于其多表关联的结构化设计,这种设计不仅模拟了企业内部复杂的业务流程,还为研究者提供了一个真实且具有挑战性的数据环境。数据集中的表格通过外键相互连接,形成了一个复杂的网络结构,这为研究表格表示学习提供了独特的视角。此外,数据集的来源真实可靠,确保了其在实际应用中的有效性和可信度。
使用方法
使用SALT数据集时,研究者可以通过Python的pandas库轻松加载和处理数据。首先,安装pandas库后,可以通过简单的代码加载数据集中的各个表格,如销售文档、销售文档项、客户信息和地址等。加载后的数据可以直接用于模型训练和测试,支持多种表格表示学习任务。通过这种方式,研究者可以充分利用SALT数据集的多表关联特性,探索和验证其在实际业务场景中的应用效果。
背景与挑战
背景概述
在企业资源规划(ERP)系统中,多表数据通过外键链接的场景广泛存在,尤其是在销售自动化领域,这种结构化的数据处理对提升业务效率至关重要。然而,现有的基础模型,尤其是基于Transformer架构的模型,在处理此类多表数据时面临显著挑战。为填补这一研究空白,Tassilo Klein等人于2024年创建了SALT数据集,该数据集源自真实的ERP系统,包含了丰富的链接表结构,旨在推动表表示学习领域的研究。通过提供真实的业务数据,SALT数据集为模型在实际业务场景中的应用提供了有力支持,有望显著提升销售自动化系统的智能化水平。
当前挑战
SALT数据集的核心挑战在于如何有效处理和表示多表数据,尤其是通过外键链接的复杂结构。首先,多表数据的异构性使得模型难以统一处理,增加了数据预处理的复杂度。其次,企业数据通常涉及敏感信息,如何在保证数据隐私的前提下进行有效利用,是构建过程中的一大难题。此外,由于企业数据的动态性和多样性,如何确保模型的泛化能力和实时性,也是研究中亟待解决的问题。这些挑战不仅影响了模型的性能,也限制了其在实际业务场景中的广泛应用。
常用场景
经典使用场景
SALT数据集的经典使用场景主要集中在企业资源规划(ERP)系统中的销售自动化领域。通过提供多表关联的真实企业数据,研究者可以利用该数据集训练和评估模型,以实现销售订单的自动补全功能。这种场景不仅涉及单表数据的处理,还包括通过外键关联的多表数据整合,从而模拟真实企业环境中的复杂业务流程。
实际应用
在实际应用中,SALT数据集可用于开发和优化企业销售自动化系统。通过利用该数据集训练的模型,企业可以实现销售订单的自动补全、客户信息的智能推荐等功能,从而提高销售流程的效率和准确性。此外,该数据集还可应用于供应链管理、客户关系管理等领域,助力企业实现数字化转型。
衍生相关工作
SALT数据集的发布催生了一系列相关研究工作,特别是在表征学习和多表数据处理领域。例如,研究者们基于该数据集开发了新的表征学习算法,以更好地捕捉多表数据之间的关联关系。此外,该数据集还被用于评估和比较不同模型的性能,推动了企业级应用中人工智能技术的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作