GDER dataset

github2021-03-14 更新2024-05-31 收录

下载链接：

https://github.com/nickvosk/ecir2017-gder-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于ECIR 2017论文中，旨在生成实体关系的描述。数据集包含多种实体关系，每个关系的数据被压缩存储，并分为训练和测试数据。数据文件详细记录了实体的描述、依赖图的边列表以及实体字典的格式。

This dataset was utilized in the ECIR 2017 paper, aiming to generate descriptions of entity relationships. The dataset encompasses a variety of entity relationships, with data for each relationship compressed and divided into training and testing sets. The data files meticulously document entity descriptions, edge lists of dependency graphs, and the format of the entity dictionary.

创建时间：

2016-12-09

原始信息汇总

GDER数据集概述

数据集结构

主目录：包含用于ECIR 2017论文"Generating descriptions of entity relationships"的数据集。
子目录：位于data文件夹内，包含按关系压缩的数据（例如isSpouseOf.zip）。

文件内容

train.json：训练数据（占总数据的80%）。
test.json：测试数据（占总数据的20%）。

数据格式

每个文件train.json和test.json中的元素包含以下字段：

字段	描述
`sentence_id`	自定义句子ID
`text_freebaseid`	来自Wikipedia的关系描述，单词小写，实体替换为Freebase ID。
`text_wikiid`	来自Wikipedia的关系描述，单词小写，实体替换为Wikipedia ID。
`text_pos`	来自Wikipedia的关系描述，单词小写并进行POS标记，实体替换为Freebase ID。
`EDG`	句子实体依赖图的边列表。
`subj`	主体实体字典。
`obj`	对象实体字典。
`med`	中介实体字典（可能为`None`）。

实体字典格式

每个entity dictionary包含以下字段：

字段	描述
`id`	实体的Freebase ID。
`attributes`	实体的属性。
`direct_relations`	以实体为主体的单跳谓词。

示例数据

示例展示了如何通过JSON格式描述一个关系，包括句子ID、文本描述、实体依赖图的边列表以及实体字典的具体内容。

搜集汇总

数据集介绍

构建方式

GDER数据集的构建基于维基百科中的实体关系描述，通过提取并处理这些描述，生成了包含实体依赖图（EDG）的结构化数据。每个关系文件夹中包含训练集和测试集，分别占总数据的80%和20%。数据格式采用JSON文件，每个条目包含句子ID、实体替换后的文本描述、词性标注文本以及实体依赖图等信息。实体字典则进一步细化了实体的属性及其直接关系，确保了数据的丰富性和可扩展性。

特点

GDER数据集的特点在于其高度结构化的实体关系描述，涵盖了多种实体间的复杂关系。通过使用Freebase和维基百科的实体ID，数据集实现了实体信息的标准化表示。此外，实体依赖图（EDG）的引入使得数据能够捕捉到句子中实体间的多层次关系，为关系抽取和自然语言生成任务提供了丰富的上下文信息。数据集的多样性和复杂性使其成为研究实体关系描述生成的理想选择。

使用方法

使用GDER数据集时，研究人员可以通过加载JSON文件获取训练和测试数据。每个数据条目包含详细的实体信息和关系描述，便于进行实体关系抽取、文本生成等任务。数据集中的实体依赖图（EDG）可用于构建图神经网络模型，以捕捉实体间的复杂关系。此外，数据集的标准化实体ID和词性标注信息为自然语言处理任务提供了便利，研究人员可以根据需要选择不同的文本表示形式进行实验和分析。

背景与挑战

背景概述

GDER数据集由Nikos Voskarides、Edgar Meij和Maarten de Rijke等研究人员于2017年创建，旨在支持实体关系描述生成的研究。该数据集首次在ECIR 2017会议上发布，主要基于Wikipedia和Freebase数据，涵盖了多种实体关系类型，如婚姻关系、职业关系等。通过将实体替换为Freebase或Wikipedia的标识符，并引入实体依赖图（EDG）等结构化信息，GDER为自然语言生成任务提供了丰富的语义和句法信息。该数据集在信息检索和自然语言处理领域具有重要影响力，特别是在实体关系描述生成和知识图谱构建方面。

当前挑战

GDER数据集在解决实体关系描述生成问题时面临多重挑战。首先，如何从非结构化的Wikipedia文本中提取准确的实体关系信息，并生成符合语法和语义规则的描述，是一个复杂的任务。其次，数据集中实体关系的多样性和复杂性对模型的泛化能力提出了较高要求。此外，构建过程中，如何有效地将Freebase和Wikipedia的实体标识符进行对齐，并确保数据的一致性和完整性，也是数据集构建的主要技术难点。这些挑战不仅影响了数据集的构建质量，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

GDER数据集在自然语言处理领域中被广泛用于生成实体关系的描述。该数据集通过提供丰富的实体关系描述和实体依赖图，为研究人员提供了一个理想的平台，用于训练和测试模型在生成自然语言描述方面的能力。特别是在实体关系抽取和文本生成任务中，GDER数据集因其结构化的数据格式和多样化的关系类型，成为了经典的选择。

实际应用

在实际应用中，GDER数据集被广泛用于知识图谱的构建和扩展。通过利用该数据集中的实体关系描述，企业可以自动化地生成知识图谱中的关系描述，从而提升知识图谱的完整性和准确性。此外，该数据集还被用于开发智能问答系统，帮助系统更好地理解和回答与实体关系相关的问题。

衍生相关工作

GDER数据集衍生了许多相关的研究工作，特别是在实体关系抽取和文本生成领域。基于该数据集的研究成果，许多学者提出了新的模型和算法，用于提升实体关系描述的生成质量。例如，一些研究利用GDER数据集中的实体依赖图，开发了基于图神经网络的生成模型，显著提升了生成描述的准确性和流畅性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集