declare-lab/HyperRED

Name: declare-lab/HyperRED
Creator: declare-lab
Published: 2022-11-23 10:55:14
License: 暂无描述

Hugging Face2022-11-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/declare-lab/HyperRED

下载链接

链接失效反馈

官方服务：

资源简介：

HyperRED是一个用于超关系抽取任务的数据集，该任务旨在提取关系三元组及其限定符信息，如时间、数量或地点。例如，关系三元组（Leonard Parker, Educated At, Harvard University）可以通过包含限定符（End Time, 1967）来进行事实上的丰富。HyperRED包含44k个句子，62种关系类型和44种限定符类型。数据集结构包括tokens、entities和relations字段，数据实例展示了具体的组织方式。数据集分为训练、验证和测试集，分别包含39,840、1,000和4,000个实例。数据集是通过远程监督和人工注释从Wikipedia和Wikidata构建的。

HyperRED is a dataset for the hyper relation extraction task, which aims to extract relational triplets and their qualifier information such as time, quantity or location. For instance, the relational triplet (Leonard Parker, Educated At, Harvard University) can be factually enriched by adding the qualifier (End Time, 1967). HyperRED contains 44k sentences, 62 relation types and 44 qualifier types. The dataset structure includes fields such as tokens, entities and relations, with specific organizational patterns demonstrated via data instances. The dataset is split into training, validation and test sets, which contain 39,840, 1,000 and 4,000 instances respectively. It is constructed from Wikipedia and Wikidata via distant supervision and manual annotation.

提供机构：

declare-lab

原始信息汇总

数据集概述：HyperRED

数据集描述

名称： HyperRED
目的： 用于超关系抽取任务，抽取包含时间、数量或位置等限定信息的关系三元组。
规模： 包含44,000个句子，涉及62种关系类型和44种限定类型。
语言： 英语。

数据集结构

数据字段

tokens: 句子文本标记。
entities: 实体跨度列表，跨度索引对应于空格分隔文本中的每个标记（包括开始和不包括结束索引）。
relations: 关系列表，每个关系包含头部和尾部实体跨度，以及一个限定列表，每个限定包含值实体跨度和限定标签。

数据实例

示例数据实例展示了句子中的标记、实体和关系及其限定信息。

数据分割

训练集： 39,840个实例。
验证集： 1,000个实例。
测试集： 4,000个实例。

数据集创建

数据集通过维基百科和Wikidata之间的远程监督构建，详细的人工标注过程在相关论文中描述。

引用信息

@inproceedings{chia2022hyperred, title={A Dataset for Hyper-Relational Extraction and a Cube-Filling Approach}, author={Yew Ken Chia, Lidong Bing, Sharifah Mahani Aljunied, Luo Si and Soujanya Poria}, booktitle={Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing}, year={2022} }

搜集汇总

数据集介绍

构建方式

在信息抽取领域，构建高质量的数据集是推动模型性能提升的关键。HyperRED数据集通过远程监督方法，将维基百科文本与维基数据知识库进行对齐，自动生成初步标注。随后，研究团队引入了精细的人工标注流程，对自动生成的候选三元组及其限定信息进行验证与修正，确保了标注的准确性与一致性。这一构建策略不仅有效利用了大规模知识库的丰富信息，还通过人工干预保障了数据质量，最终形成了包含约4.4万句实例的语料库，为超关系抽取任务奠定了可靠的数据基础。

使用方法

针对超关系抽取任务，HyperRED数据集提供了明确的使用框架。研究者可将数据集按既定划分直接加载，其中训练集、验证集与测试集分别包含39,840、1,000与4,000个实例。每个实例包含词元序列、实体列表及带有限定符的关系结构，支持端到端的联合抽取模型训练。典型应用包括设计编码器-解码器架构，同时预测关系三元组及其关联的限定信息。数据集的标准化格式确保了与现有深度学习框架的兼容性，用户可基于PyTorch或TensorFlow等平台快速构建实验流程，推动超关系抽取技术的迭代与评估。

背景与挑战

背景概述

在信息抽取领域，传统的关系抽取任务主要聚焦于识别实体间的二元关系，然而现实世界中的事实往往蕴含更丰富的上下文信息，如时间、地点或数量等修饰性细节。为应对这一局限，新加坡科技设计大学声明实验室的研究团队于2022年推出了HyperRED数据集，旨在推动超关系抽取这一新兴任务的发展。该数据集通过远程监督技术，将维基百科文本与维基数据知识库进行对齐，构建了包含44,000个句子、62种关系类型及44种修饰符类型的语料库，为深入理解复杂语义结构提供了重要资源，并在自然语言处理顶级会议EMNLP上发表了相关研究成果，显著提升了知识图谱构建与事实表示的细粒度水平。

当前挑战

HyperRED数据集致力于解决超关系抽取任务中的核心挑战，即如何从文本中同时提取关系三元组及其修饰信息，以更全面地捕捉事实的复杂性。这一任务面临实体与修饰符的嵌套识别、长距离依赖建模以及多类型语义角色消歧等难题。在构建过程中，研究团队需克服远程监督带来的噪声问题，确保维基数据与文本对齐的准确性，并通过人工标注流程验证数据质量，以平衡规模与精度之间的张力，为模型训练提供可靠的基础。

常用场景

经典使用场景

在信息抽取领域，HyperRED数据集为超关系抽取任务提供了关键支持。该数据集通过整合关系三元组与修饰信息，如时间、数量或地点，使得模型能够从文本中提取更为丰富和精确的事实知识。例如，从句子中不仅识别出“Leonard Parker毕业于哈佛大学”这一基本关系，还能进一步捕获“毕业时间为1967年”的修饰细节，从而构建出多维度的知识表示。这种设计极大地推动了自然语言处理中细粒度关系抽取的研究，为知识图谱的构建与补全奠定了坚实基础。

解决学术问题

HyperRED数据集有效解决了传统关系抽取中修饰信息缺失的学术难题。在以往研究中，关系抽取往往局限于主体、关系和客体三元组，忽略了时间、地点等关键上下文，导致知识表示不够完整。该数据集通过引入44种修饰类型，使得研究者能够探索如何同时抽取核心关系与修饰信息，从而提升知识表示的深度与准确性。这一进展不仅丰富了信息抽取的理论框架，还为跨领域知识融合、时序推理等复杂任务提供了数据支撑，推动了自然语言处理向更精细化、结构化方向发展。

实际应用

在实际应用中，HyperRED数据集为知识图谱构建、智能问答和事件分析等场景提供了重要资源。在知识图谱领域，利用该数据集可以自动从海量文本中提取带有时空、数量等修饰的事实，增强图谱的细节与实用性；在智能问答系统中，模型能够基于修饰信息提供更精确的答案，如回答“某人何时何地毕业于某大学”；在事件分析中，修饰信息有助于理解事件的完整脉络，支持舆情监控、历史研究等任务。这些应用显著提升了自动化信息处理的效率与可靠性。

数据集最近研究