SALT-KG
收藏arXiv2026-01-12 更新2026-01-14 收录
下载链接:
https://github.com/SAP-samples/salt-kg
下载链接
链接失效反馈官方服务:
资源简介:
SALT-KG是由SAP SE开发的企业级多表语义增强基准数据集,通过将关系型事务数据与结构化操作业务知识图谱(OBKG)关联,扩展了原SALT数据集。该数据集包含990个显式映射的模式字段及其关联的业务对象节点和文本描述,以及1954个语义对象类型,数据来源于真实世界的销售订单创建流程。数据集构建过程涉及将RDF企业元数据知识图谱与表格数据对齐,通过SPARQL查询获取元数据上下文。该数据集旨在评估模型在结合关系推理和声明性模式语义方面的能力,推动基于结构化数据的语义感知学习研究,解决企业环境中多表关系数据的语义理解问题。
SALT-KG is an enterprise-level multi-table semantic-enhanced benchmark dataset developed by SAP SE, which extends the original SALT dataset by associating relational transaction data with structured operational business knowledge graphs (OBKG). This dataset contains 990 explicitly mapped schema fields along with their associated business object nodes and textual descriptions, as well as 1954 semantic object types, with data sourced from real-world sales order creation workflows. The dataset construction process involves aligning RDF enterprise metadata knowledge graphs with tabular data and acquiring metadata context via SPARQL queries. This dataset aims to evaluate models' capabilities in combining relational reasoning and declarative schema semantics, promote semantic-aware learning research based on structured data, and address the semantic understanding challenges of multi-table relational data in enterprise environments.
提供机构:
SAP SE
创建时间:
2026-01-12
原始信息汇总
SALT-KG 数据集概述
数据集基本信息
- 数据集名称:SALT-KG: A Benchmark for Semantics-Aware Learning on Enterprise Tables
- 发布来源:SAP
- 相关论文:SALT-KG: A Benchmark for Semantics-Aware Learning on Enterprise Tables,发表于 NeurIPS 2025 Table Representation Learning Workshop
- 论文链接:https://openreview.net/forum?id=9vVMSvilGX
- 许可证:CC-BY-NC-SA-4.0
数据集描述与目标
SALT-KG 是一个用于企业表格语义感知学习的基准数据集。它在 SALT 关系预测基准的基础上,将多表交易数据与一个结构化的操作业务知识(以元数据知识图谱形式表示)进行关联。该知识图谱捕获了字段级描述、关系依赖和业务对象类型。此扩展旨在评估能够同时对表格证据和上下文语义进行联合推理的模型,这是结构化数据基础模型日益关键的能力。
数据集构成
- 关系表格:包含来自 SALT 基准的 4 个具有交易数据的关系表。
- 元数据知识图谱:包含字段级描述、关系依赖和业务对象的操作业务知识图谱。
- 数据划分:为每个表提供了训练集、验证集和测试集划分。
创建方法
对于底层 SALT 数据集中的每个关系(表),在知识图谱中找到一个匹配的节点(视图)。提取与这些视图相关的三元组,包括:
- 字段:具有关联字段、标签、关联、数据类、参考字段等元素的数据抽象节点。
- 对象节点类型:通过技术定义和业务对象描述提供的进一步语义元数据。
作者
- Isaiah Onando Mulang
- Felix Sasaki
- Tassilo Klein
- Jonas Kolk
- Nikolay Grechanov
- Johannes Hoffart
引用方式
若在研究中使用本数据集,请引用以下论文:
@inproceedings{mulang2025saltkg, title={SALT-KG: A Benchmark for Semantics-Aware Learning on Enterprise Tables}, author={Mulang, Isaiah Onando and Sasaki, Felix and Klein, Tassilo and Kolk, Jonas and Grechanov, Nikolay and Hoffart, Johannes}, booktitle={Proceedings of the NeurIPS 2025 Table Representation Learning Workshop}, year={2025} }
支持与贡献
- 问题反馈:可通过在 GitHub 仓库创建 Issue 来报告错误或提出内容相关问题。
- 额外支持:可在 SAP Community 提问。
- 代码贡献:欢迎通过 Pull Request 贡献代码、修复或改进。贡献者需在首次提交时接受开发者原创证书。
已知问题
无已知问题。
搜集汇总
数据集介绍

构建方式
在结构化数据学习领域,SALT-KG数据集的构建体现了对语义感知能力的深度整合。该数据集以SALT基准为基础,通过将多表事务数据与一个结构化的操作业务知识图谱(OBKG)进行链接而构建。OBKG捕获了字段级描述、关系依赖和业务对象类型等元数据,形成了一种声明性的语义层。构建过程中,利用SPARQL查询从企业元数据知识图谱中提取与SALT中每个表对应的节点及其一跳关联的字段和对象节点类型信息,从而将纯粹的关系模式与丰富的上下文语义明确对齐,实现了表格证据与概念知识的有机结合。
特点
SALT-KG的核心特征在于其开创性地融合了关系结构与声明性语义。数据集不仅继承了SALT中企业销售订单数据的高基数、类别不平衡与时间漂移等真实世界属性,更通过OBKG层引入了近千个模式字段的显式映射、近两千个语义对象类型以及丰富的文本描述。这种设计使得数据具备了双重模态:一方面是标准化的多表关系模式,支持传统预测任务;另一方面是图结构的语义网络,能够揭示字段含义、业务对象层次及跨实体关联。这种语义覆盖为模型提供了超越统计相关性的上下文理解基础,将表格预测重新定义为语义条件推理。
使用方法
该数据集旨在评估模型在联合推理表格证据与上下文语义方面的能力。使用方法遵循标准的监督学习框架,围绕缺失字段自动补全任务展开。研究者需将原始的表格特征与从OBKG提取的语义特征进行融合;语义信息通常通过大型文本嵌入模型编码,并经降维后与表格特征向量早期拼接,形成统一的输入表示。随后,可利用该混合表示训练各类基线模型,如树集成方法、深度学习模型或图神经网络,并针对八个多类别目标变量进行评估。通过比较模型在融入语义上下文前后的性能差异,能够系统分析语义知识对表格学习与表示的影响。
背景与挑战
背景概述
在结构化数据学习领域,企业级多表数据因其复杂的关系依赖和隐含的业务语义,一直是机器学习模型面临的重要挑战。SALT-KG数据集由SAP SE的研究团队于2026年提出,作为SALT基准的语义感知扩展,旨在解决企业表格中语义感知学习的评估问题。该数据集通过将多表事务数据与结构化操作业务知识图谱(OBKG)相链接,捕获字段级描述、关系依赖和业务对象类型,从而为模型提供了结合表格证据与上下文语义进行联合推理的能力。SALT-KG的创建标志着表格基础模型研究从纯粹的结构预测向语义条件推理的转变,为基于声明性知识的表格学习奠定了实证基础,推动了企业级结构化数据中语义链接表格的发展。
当前挑战
SALT-KG数据集所解决的核心领域挑战在于企业表格的语义感知学习,即如何使模型不仅依赖统计相关性,还能利用声明性语义进行上下文推理。具体而言,该任务要求模型在属性自动补全等预测任务中,整合表格的关系结构与知识图谱的语义信息,以提升对如销售办公室、付款条件等业务属性的推断准确性。在构建过程中,数据集面临多重挑战:首先,将关系模式与OBKG对齐需处理大量元数据映射,涉及约990个模式字段与1,954个语义对象类型的复杂链接;其次,企业数据固有的高基数、类别不平衡和时间漂移特性,如销售点等属性的类别分布不均,增加了语义整合的难度;此外,知识图谱层虽提供语义上下文,但受限于原始关系数据的本体深度,缺乏高阶抽象和跨实体推理,制约了语义信息的充分传播,导致当前模型难以有效利用高阶语境进行泛化。
常用场景
经典使用场景
在结构化数据学习领域,SALT-KG数据集为语义感知的表格学习提供了标准化的评估基准。该数据集通过将多表交易数据与操作业务知识图谱(OBKG)相连接,构建了一个融合关系结构与语义上下文的复合数据环境。其经典使用场景聚焦于模拟企业销售订单创建过程中的缺失字段自动补全任务,要求模型在给定部分表格信息的基础上,推断关键业务属性如销售办公室、运输条件等,从而评估模型如何协同利用表格证据与语义知识进行联合推理。
衍生相关工作
SALT-KG数据集的推出催生了一系列围绕语义感知表格学习的研究工作。它直接启发了如CARTE、TabPFN、TabICL等表格基础模型在语义增强方向上的扩展探索。同时,该数据集与JENTAB、CORECOLUMNMATCH等表格-知识图谱对齐系统形成了方法学上的互补,共同促进了关系表示学习与语义推理的融合。在更广泛的框架层面,SALT-KG为“语义链接表格的基础模型”愿景提供了实验基准,激励后续研究设计能够统一关系、语义与语言理解的新型架构。
数据集最近研究
最新研究方向
在结构化数据学习领域,SALT-KG数据集的推出标志着企业表格语义感知学习的前沿探索。该数据集通过将多表事务数据与元数据知识图谱(OBKG)相链接,为表格基础模型提供了结合关系证据与上下文语义的联合推理基准。当前研究聚焦于如何利用声明性知识增强模型的语义理解能力,以超越传统基于统计相关性的预测模式。尽管实验表明元数据特征在经典预测指标上提升有限,但它们揭示了模型在关系上下文中利用语义的显著差距,这推动了针对语义条件推理的架构创新。相关热点事件包括在EurIPS 2025的AI for Tabular Data workshop中对该数据集的讨论,以及其与FMSLT框架的集成,旨在促进声明性、过程性和操作性知识的融合。SALT-KG的影响在于为表格学习提供了首个语义感知评估标准,为未来研究如何通过知识图谱上下文提升表格表示学习奠定了实证基础,有望推动企业级结构化数据向语义链接表格的范式转变。
相关研究论文
- 1SALT-KG: A Benchmark for Semantics-Aware Learning on Enterprise TablesSAP SE · 2026年
以上内容由遇见数据集搜集并总结生成



