HyperRED

Name: HyperRED
Creator: 阿里巴巴达摩院
Published: 2022-11-18 11:51:28
License: 暂无描述

arXiv2022-11-18 更新2024-07-24 收录

下载链接：

https://github.com/declare-lab/HyperRED

下载链接

链接失效反馈

官方服务：

资源简介：

HyperRED是一个大规模、通用目的的超关系提取数据集，由阿里巴巴达摩院构建。该数据集包含44,372条超关系事实，旨在从自然语言文本中提取更具体和完整的事实。HyperRED通过远监督和部分人工标注精炼构建，覆盖多个领域，支持丰富的信息提取，特别适用于知识图谱的构建和复杂关系提取任务。

HyperRED is a large-scale, general-purpose hyper-relation extraction dataset constructed by Alibaba DAMO Academy. This dataset contains 44,372 hyper-relation facts, which is designed to extract more specific and comprehensive facts from natural language texts. Refined via distant supervision and partial manual annotation, HyperRED covers multiple domains, supports rich information extraction, and is particularly suitable for knowledge graph construction and complex relation extraction tasks.

提供机构：

阿里巴巴达摩院

创建时间：

2022-11-18

原始信息汇总

HyperRED 数据集概述

数据集简介

HyperRED 是一个用于超关系抽取任务的数据集，旨在提取关系三元组及其限定信息，如时间、数量或地点。例如，关系三元组 (Leonard Parker, Educated At, Harvard University) 可以通过包含限定信息 (End Time, 1967) 来丰富事实内容。该数据集包含 44,000 个句子，涉及 62 种关系类型和 44 种限定类型。

数据集下载与处理

数据集可通过以下命令下载和处理： bash python data_process.py download_data data/hyperred/ python data_process.py process_many data/hyperred/ data/processed/

数据探索

以下是数据探索的示例代码： python from data_process import Data

path = "data/hyperred/train.json" data = Data.load(path)

for s in data.sents[:3]: print() print(s.tokens) for r in s.relations: print(r.head, r.label, r.tail) for q in r.qualifiers: print(q.label, q.span)

数据字段

tokens: 句子文本标记。
entities: 每个实体范围的列表。范围索引对应于空格分隔文本中的每个标记（包含开始和不包含结束索引）。
relations: 头部和尾部实体范围之间的关系标签列表。每个关系包含一个限定列表，每个限定具有值实体范围和限定标签。

数据示例

以下是数据集的一个示例实例： json { "tokens": ["Acadia", "University", "is", "a", "predominantly", "undergraduate", "university", "located", "in", "Wolfville", ",", "Nova", "Scotia", ",", "Canada", "with", "some", "graduate", "programs", "at", "the", "master", "", "s", "level", "and", "one", "at", "the", "doctoral", "level", "."], "entities": [ {"span": (0, 2), "label": "Entity"}, {"span": (9, 13), "label": "Entity"}, {"span": (14, 15), "label": "Entity"}, ], "relations": [ { "head": [0, 2], "tail": [9, 13], "label": "headquarters location", "qualifiers": [ {"span": [14, 15], "label": "country"} ] } ], }

搜集汇总

数据集介绍

构建方式

HyperRED数据集通过远监督（distant supervision）方法构建，结合了英语维基百科和Wikidata知识图谱。首先，从维基百科文章的引言部分提取实体，并使用DBpedia Spotlight进行实体链接，同时使用spaCy提取时间与数值实体。接着，通过Stanford CoreNLP工具解决文章中的指代问题。随后，将文本中的实体与Wikidata中的超关系事实进行对齐，确保每个句子中的头实体、尾实体和值实体均与知识图谱中的事实匹配。最后，部分数据通过人工标注进行校正，以减少远监督引入的噪声。

特点

HyperRED数据集的主要特点在于其包含了丰富的超关系事实，这些事实不仅包含传统的二元关系三元组，还引入了如时间、数量、地点等限定符，从而更全面地捕捉知识图谱的复杂结构。与现有的二元关系抽取数据集相比，HyperRED提供了更丰富的信息抽取能力，并且覆盖了多个领域，使其成为一个通用且大规模的数据集。

使用方法

HyperRED数据集可用于训练和评估超关系抽取模型。研究者可以使用该数据集进行模型训练，提取句子中的关系三元组及其对应的限定符。数据集的标注格式为五元组（头实体、关系、尾实体、限定符标签、值实体），模型需要预测这些五元组。通过使用CubeRE等模型，研究者可以实现端到端的超关系抽取，并利用数据集中的限定符信息提升模型的抽取精度。

背景与挑战

背景概述

HyperRED数据集由阿里巴巴集团和新加坡科技设计大学的研究团队于2022年提出，旨在支持超关系抽取任务。该数据集的核心研究问题是如何从自然语言文本中提取包含限定符的三元组，以构建更为复杂和丰富的知识图谱。传统的知识图谱通常只包含简单的二元关系，而HyperRED通过引入限定符（如时间、数量、地点等），能够更精确地捕捉知识图谱中的复杂结构。该数据集的构建采用了远程监督方法，并结合了部分人工标注，涵盖了多个领域，如商业、体育和政治等。HyperRED的提出填补了超关系抽取领域的空白，为未来的研究提供了重要的基准数据集。

当前挑战

HyperRED数据集的构建和应用面临多重挑战。首先，超关系抽取任务本身具有较高的复杂性，模型需要同时处理三元组及其限定符之间的交互，这要求模型具备强大的多任务处理能力。其次，数据集的构建过程中，远程监督方法虽然能够快速生成大规模数据，但也引入了噪声和错误对齐问题，这需要通过人工标注来部分缓解。此外，数据集中包含大量的关系和限定符标签，导致类别不平衡问题，这对模型的训练和性能提出了更高的要求。最后，超关系抽取任务的计算复杂度较高，尤其是在处理长文本时，模型的计算效率和可扩展性成为关键挑战。

常用场景

经典使用场景

HyperRED数据集的经典使用场景在于超关系抽取任务，旨在从自然语言文本中提取包含关系三元组及其限定符的完整事实。例如，从句子“Leonard Parker在1967年从哈佛大学获得博士学位。”中，可以提取出超关系事实（Leonard Parker, Educated At, Harvard University, End Time, 1967）。这种抽取任务能够帮助构建更加丰富和复杂的知识图谱，尤其是在需要时间、数量或地点等限定信息的场景中。

解决学术问题

HyperRED数据集解决了当前关系抽取方法中常见的简化问题，即忽略了关系三元组的限定符属性。通过引入超关系抽取任务，该数据集能够提取更加具体和完整的事实，从而更好地捕捉知识图谱的复杂结构。这不仅提升了知识图谱的构建质量，还为事实验证和知识图谱表示学习等任务提供了更丰富的信息支持，推动了相关领域的研究进展。

衍生相关工作

HyperRED数据集的提出催生了一系列相关研究工作，特别是在超关系抽取模型的开发上。例如，CubeRE模型通过立方填充方法，显著提升了超关系抽取的性能，并成为该领域的基准模型。此外，基于该数据集的研究还扩展到了多领域知识图谱的构建、跨文档关系抽取以及对话系统中的信息抽取等方向，进一步推动了信息抽取技术的多样化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集