HyperRED

github2022-12-13 更新2024-05-31 收录

下载链接：

https://github.com/declare-lab/HyperRED

下载链接

链接失效反馈

官方服务：

资源简介：

HyperRED是一个用于超关系抽取任务的新数据集，旨在提取关系三元组以及如时间、数量或位置等限定信息。例如，关系三元组（Leonard Parker，Educated At，哈佛大学）可以通过包含限定信息（结束时间，1967年）来事实性丰富。该数据集包含44,000个句子，涉及62种关系类型和44种限定类型。

HyperRED is a novel dataset designed for the task of hyper-relational extraction, aiming to extract relational triples along with qualifying information such as time, quantity, or location. For instance, the relational triple (Leonard Parker, Educated At, Harvard University) can be factually enriched by including qualifying information (end time, 1967). The dataset comprises 44,000 sentences, encompassing 62 types of relations and 44 types of qualifiers.

创建时间：

2022-11-23

原始信息汇总

数据集概述

名称： HyperRED

目的： 用于超关系抽取任务，旨在提取关系三元组及其相关限定信息（如时间、数量或位置）。

数据集内容：

句子数量： 44,000
关系类型： 62
限定类型： 44

示例： 关系三元组（Leonard Parker, Educated At, Harvard University）通过添加限定信息（End Time, 1967）进行事实丰富。

数据集结构

tokens: 句子文本的词元。
entities: 实体跨度的列表，跨度索引对应于空格分隔文本中的每个词元（包括起始和不包括结束索引）。
relations: 头实体和尾实体跨度之间的关系标签列表。每个关系包含一个限定列表，每个限定具有值实体跨度和限定标签。

数据示例

json { "tokens": [Acadia, University, ...], "entities": [ {"span": (0, 2), "label": "Entity"}, ... ], "relations": [ { "head": [0, 2], "tail": [9, 13], "label": "headquarters location", "qualifiers": [ {"span": [14, 15], "label": "country"} ] } ] }

模型训练与预测

训练命令： bash python training.py --save_dir ckpt/cube_prune_20_seed_0 --seed 0 --data_dir data/processed --prune_topk 20 --config_file config.yml

预测示例： python from prediction import run_predict

texts = [ "Leonard Parker received his PhD from Harvard University in 1967 .", "Szewczyk played 37 times for Poland, scoring 3 goals .", ] preds = run_predict(texts, path_checkpoint="cube_model")

研究引用

若该代码对您的研究项目有帮助，请引用以下论文：

@inproceedings{chia-etal-2022-hyperred, title = "A Dataset for Hyper-Relational Extraction and a Cube-Filling Approach", author = "Chia, Yew Ken and Bing, Lidong and Aljunied, Sharifah Mahani and Si, Luo and Poria, Soujanya", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", year = "2022", url = "https://arxiv.org/abs/2211.10018", }

搜集汇总

数据集介绍

构建方式

HyperRED数据集的构建基于超关系抽取任务，旨在从文本中提取关系三元组及其相关的修饰信息，如时间、数量或地点。该数据集包含44,000个句子，涵盖62种关系类型和44种修饰类型。通过借鉴表格填充方法，研究团队提出了CubeRE模型，该模型显式考虑了关系三元组与修饰信息之间的交互作用，从而实现了对复杂关系的精确抽取。

特点

HyperRED数据集的特点在于其丰富的修饰信息，能够为关系三元组提供额外的上下文支持。例如，关系三元组（Leonard Parker, Educated At, Harvard University）可以通过修饰信息（End Time, 1967）进一步丰富。这种设计使得数据集在捕捉复杂语义关系方面具有显著优势。此外，数据集的结构化设计便于模型训练和评估，为超关系抽取任务提供了高质量的基准数据。

使用方法

使用HyperRED数据集时，用户需首先通过Hugging Face平台下载数据，并利用提供的Python脚本进行数据预处理。数据集支持多种格式，包括JSON文件，便于直接加载和探索。用户可以通过内置的Data类加载数据，并查看句子、实体、关系及修饰信息的具体内容。此外，数据集还提供了预训练模型和训练脚本，用户可通过配置参数进行模型训练和预测，并通过评估脚本对模型性能进行量化分析。

背景与挑战

背景概述

HyperRED数据集由Declare Lab团队于2022年发布，旨在推动超关系抽取（Hyper-Relational Extraction）领域的研究。该数据集包含44,000个句子，涵盖62种关系类型和44种修饰符类型，用于从文本中提取关系三元组及其修饰信息，如时间、数量或地点。这一研究背景源于对传统关系抽取任务的扩展，传统方法仅关注实体间的关系，而HyperRED则进一步引入了修饰符信息，以增强事实描述的丰富性和准确性。该数据集在EMNLP 2022会议上首次亮相，并提出了CubeRE模型，通过立方体填充方法显式建模关系三元组与修饰符之间的交互，为自然语言处理领域提供了新的研究方向。

当前挑战

HyperRED数据集在构建和应用中面临多重挑战。首先，超关系抽取任务本身具有较高的复杂性，不仅需要识别实体间的关系，还需捕捉修饰符信息，这对模型的语义理解和上下文推理能力提出了更高要求。其次，数据集的构建过程中，标注修饰符信息需要大量的人工干预，确保修饰符与关系三元组的准确匹配，这一过程耗时且易出错。此外，CubeRE模型的训练和优化也面临计算资源消耗大、模型泛化能力不足等问题，尤其是在处理长文本或复杂语境时，模型的表现仍有待提升。这些挑战不仅影响了数据集的广泛应用，也为未来研究提供了改进方向。

常用场景

经典使用场景

HyperRED数据集在自然语言处理领域中被广泛用于超关系抽取任务，特别是在需要从文本中提取复杂关系三元组及其修饰信息的场景中。该数据集通过提供丰富的修饰信息（如时间、数量、地点等），使得模型能够更全面地理解文本中的关系结构。例如，在学术文献分析中，HyperRED可以帮助研究者从大量文本中提取出精确的学术关系及其上下文信息，从而支持更深入的知识图谱构建和信息检索。

衍生相关工作

HyperRED数据集的发布催生了一系列相关研究工作，特别是在超关系抽取模型的开发方面。基于HyperRED，研究者提出了多种创新的模型架构，如CubeRE模型，该模型通过立方体填充的方式显式地考虑了关系三元组与修饰信息之间的交互。此外，HyperRED还激发了其他领域的研究，如多模态关系抽取和跨语言关系抽取，进一步推动了自然语言处理领域的发展。

数据集最近研究