SALT
收藏SALT: Sales Autocompletion Linked Business Tables Dataset
基本信息
- 许可证: CC BY-NC-SA 4.0
- 发布日期:
- 12/15/2024: 初步数据集在Hugging Face上可用
- 12/13/2024: 提供数据
- 10/29/2024: 初步仓库创建
摘要
SALT数据集是从企业资源计划(ERP)系统中提取的,包含大量链接表的精选数据集。该数据集旨在支持表表示学习研究,特别是针对企业环境中多表数据的研究。通过提供真实的企业数据,该数据集的目标是增强模型在实际业务场景中的有效性和适用性。
数据集信息
- 表结构:
- 图示: SALT Schema
- 示例输入界面:
使用方法
数据集以Parquet格式提供,可以使用Pandas加载。示例代码如下:
python import pandas as pd
加载表数据
salesdocuments = pd.read_parquet("data/I_SalesDocument.parquet") salesdocument_items = pd.read_parquet("data/I_SalesDocumentItem.parquet") customers = pd.read_parquet("data/I_Customer.parquet") addresses = pd.read_parquet("data/I_AddrOrgNamePostalAddress.parquet")
显示前几行数据
salesdocuments.head()
作者
- Tassilo Klein
- Clemens Biehl
- Margarida Costa
- Jonas Kolk
- Johannes Hoffart
引用
如果使用该数据集,请引用以下内容:
@inproceedings{ klein2024salt, title={{SALT}: Sales Autocompletion Linked Business Tables Dataset}, author={Tassilo Klein and Clemens Biehl and Margarida Costa and Andre Sres and Jonas Kolk and Johannes Hoffart}, booktitle={NeurIPS 2024 Third Table Representation Learning Workshop}, year={2024}, url={https://openreview.net/forum?id=UZbELpkWIr} }
路线图
- [ ] 集成到RelBench,2025年2月
- [x] 发布数据集




