T2D Gold Standard, T2DStar Gold Standard

github2023-07-27 更新2024-05-31 收录

下载链接：

https://github.com/dice-group/TAIPAN-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

T2D Gold Standard包含两个部分：模式级和实体级黄金标准，用于匹配Web表列到知识库中的属性。T2DStar Gold Standard是为了解决T2D的问题而开发的，特别是关于主题列识别和属性注释的问题。

The T2D Gold Standard comprises two components: schema-level and entity-level gold standards, designed for matching web table columns to attributes in a knowledge base. The T2DStar Gold Standard was developed to address issues in T2D, particularly concerning the identification of subject columns and the annotation of attributes.

创建时间：

2016-06-30

原始信息汇总

数据集概述

数据集内容

本数据集用于基准测试以下任务：

(T1) 识别表的主题列
(T2) 将Web表列匹配到知识库（如DBpedia）中的属性
(T3) 开放表提取

T2D Gold Standard

组成部分：
- 模式级黄金标准
- 实体级黄金标准
详细信息：
- 模式级黄金标准包含1,748个表，其中762个表可映射到DBpedia类，7983个列对应DBpedia属性。
- 实体级黄金标准包含行到实体的对应关系，不适用于上述任务，因此未包含在内。

T2DStar Gold Standard

开发目的：解决T2D存在的问题，特别是T2D无法明确识别主题列的问题。
改进点：
- 通过专家注释的T2D部分进行精心制作。
- 解决了T2D中不正确/不完整的属性注释问题。
详细描述：
- T2DStar的制作过程及与T2D的差异在T2DStar子文件夹中有进一步描述。

搜集汇总

数据集介绍

构建方式

T2D Gold Standard数据集的构建基于对Web表格与知识库（如DBpedia）之间映射关系的深入研究。该数据集分为模式级和实体级两个部分，其中模式级标准包含1,748个表格，其中762个可映射到DBpedia类别，7,983列对应DBpedia属性。实体级标准则未包含在内，因其不适用于上述任务。T2DStar Gold Standard则是对T2D的改进版本，通过专家标注的方式对T2D进行了部分修正，解决了T2D中主题列未明确标识以及属性标注不准确或不完整的问题。

特点

T2D Gold Standard数据集的特点在于其专注于Web表格与知识库属性之间的映射关系，提供了丰富的模式级标注数据，适用于表格列与知识库属性的匹配任务。T2DStar Gold Standard则进一步优化了T2D的标注质量，明确标识了主题列，并修正了属性标注中的错误，使其更适合于主题列识别任务。两个数据集共同为表格数据与知识库的集成研究提供了高质量的基准数据。

使用方法

T2D Gold Standard数据集主要用于评估Web表格列与知识库属性匹配任务的性能。研究者可通过模式级标准进行表格列与DBpedia属性的映射实验。T2DStar Gold Standard则更适合用于主题列识别任务，研究者可利用其明确的主题列标注进行相关算法的开发与验证。两个数据集均可通过GitHub仓库获取，具体使用方法可参考各子文件夹中的README文件。

背景与挑战

背景概述

T2D Gold Standard和T2DStar Gold Standard数据集由Web Data Commons项目组开发，旨在为Web表格与知识库（如DBpedia）之间的匹配任务提供基准。T2D Gold Standard于2012年发布，包含1,748个表格，其中762个表格可映射到DBpedia类别，7,983列对应DBpedia属性。该数据集分为模式级和实体级两部分，模式级标准用于匹配Web表格列与知识库属性，而实体级标准则未包含在上述任务中。T2DStar Gold Standard是对T2D的改进版本，由同一团队开发，旨在解决T2D中存在的主题列识别不明确以及属性标注错误或不完整的问题。这些数据集在语义网、知识图谱构建以及表格数据理解领域具有重要影响力。

当前挑战

T2D Gold Standard和T2DStar Gold Standard数据集在解决Web表格与知识库匹配任务时面临多重挑战。首先，T2D Gold Standard中存在超过XX%的错误标注，影响了数据集的可靠性。其次，T2D未能明确识别主题列，限制了其在主题列识别任务中的应用。此外，T2DStar的开发过程中，研究人员需对T2D进行专家级人工标注和修正，这一过程耗时且复杂。最后，由于Web表格的异构性和知识库的动态更新，确保数据集与最新知识库的兼容性也是一个持续的技术挑战。这些挑战凸显了高质量数据集构建的复杂性和重要性。

常用场景

经典使用场景

T2D Gold Standard和T2DStar Gold Standard数据集在知识图谱构建和Web表格数据集成领域具有重要应用。这些数据集主要用于评估和提升表格数据与知识库（如DBpedia）之间的匹配算法。通过提供详细的模式级和实体级黄金标准，研究者能够精确地测试和优化表格列与知识库属性之间的映射准确性。

实际应用

在实际应用中，T2D和T2DStar数据集被广泛应用于知识图谱的自动构建、数据集成和信息检索系统。例如，在电子商务领域，这些数据集可以帮助企业将产品表格数据与知识库中的属性进行匹配，从而提升产品信息的准确性和一致性。

衍生相关工作

基于T2D和T2DStar数据集，许多经典研究工作得以展开。例如，研究者开发了多种表格数据与知识库属性匹配的算法，如基于机器学习的匹配模型和基于规则的匹配系统。这些工作不仅提升了表格数据与知识库的匹配精度，还为知识图谱的自动构建提供了新的方法和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集