DFKI-SLT/gids

Name: DFKI-SLT/gids
Creator: DFKI-SLT
Published: 2023-01-11 10:06:07
License: 暂无描述

Hugging Face2023-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/gids

下载链接

链接失效反馈

官方服务：

资源简介：

Google-IISc Distant Supervision (GIDS) 是一个用于远程监督关系抽取的新数据集。该数据集源自经过人工判断的Google关系抽取语料库。数据集包含两种配置：gids和gids_formatted。gids配置包含句子、实体ID、实体文本和关系标签，而gids_formatted配置则包含分词后的句子、实体起始和结束位置以及关系标签。数据集的语言为英语，数据量在10K到100K之间。

Google-IISc Distant Supervision (GIDS) is a novel dataset for distant supervised relation extraction. It is derived from a manually curated Google relation extraction corpus. The dataset provides two configurations: gids and gids_formatted. The gids configuration contains sentences, entity IDs, entity texts and relation labels, while the gids_formatted configuration includes tokenized sentences, the start and end positions of entities, and relation labels. The dataset is in English, with a size ranging from 10K to 100K.

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

名称: Google-IISc Distant Supervision (GIDS) dataset for distantly-supervised relation extraction

语言: 英语

许可证: 其他

多语言性: 单语

大小: 10K<n<100k

源数据: 扩展自其他数据集

标签: 关系抽取

任务类别: 文本分类

任务ID: 多类分类

数据集结构

数据实例

gids:
- 特征:
  - sentence: 字符串
  - subj_id: 字符串
  - obj_id: 字符串
  - subj_text: 字符串
  - obj_text: 字符串
  - relation: 分类标签（0: NA, 1: /people/person/education./education/education/institution, 2: /people/person/education./education/education/degree, 3: /people/person/place_of_birth, 4: /people/deceased_person/place_of_death）
- 数据分割:
  - train: 11297个样本
  - validation: 1864个样本
  - test: 5663个样本
gids_formatted:
- 特征:
  - token: 字符串列表
  - subj_start: 整数
  - subj_end: 整数
  - obj_start: 整数
  - obj_end: 整数
  - relation: 分类标签（同上）
- 数据分割:
  - train: 11297个样本
  - validation: 1864个样本
  - test: 5663个样本

数据集创建

注释创建者: 其他
语言创建者: 发现
许可证: 其他
多语言性: 单语
大小类别: 10K<n<100k
源数据集: 扩展自其他

数据集使用注意事项

社会影响: 未提供
偏见讨论: 未提供
其他已知限制: 未提供

搜集汇总

数据集介绍

构建方式

在关系抽取领域，远监督方法通过自动对齐知识库与文本语料来生成标注数据，有效缓解了人工标注的高成本问题。GIDS数据集构建于谷歌关系抽取语料库的基础之上，该语料库经过人工判断，确保了数据源的可靠性。数据集包含两个版本：原始版本提供完整句子及实体信息，格式化版本则利用spaCy工具进行分词处理，并移除了实体中的下划线，同时提供了精确的实体位置偏移量，便于模型直接处理。这种双重格式设计兼顾了数据原始性与预处理便利性，为研究提供了灵活的基础。

特点

GIDS数据集专注于人物相关的几种关键关系，如教育机构、学位、出生地与逝世地等，涵盖了现实世界中常见的语义关联。其标注体系包含一个特殊的“NA”类别，用于标识句子中不存在目标关系的情况，这有助于模型学习区分相关与无关语境。数据规模适中，包含超过一万条训练实例，划分为训练、验证与测试集，支持可靠的模型评估。此外，数据以英文呈现，确保了在自然语言处理研究中的广泛适用性。

使用方法

使用该数据集时，研究人员可通过Hugging Face的datasets库直接加载，并选择原始或格式化配置。原始版本适合需要自定义预处理流程的实验，而格式化版本提供了即用的分词结果与实体边界，能加速模型输入层的构建。数据集适用于多类关系分类任务，可服务于注意力机制、远程监督算法等前沿研究。在模型训练过程中，建议注意数据中“NA”类别的平衡处理，以优化分类性能。

背景与挑战

背景概述

在自然语言处理领域，关系抽取作为信息抽取的核心任务，旨在从非结构化文本中识别实体间的语义关联。Google-IISc Distant Supervision (GIDS) 数据集于2018年由Sharmistha Jat、Siddhesh Khandelwal及Partha P. Talukdar等研究人员共同构建，其研究背景植根于远程监督方法的优化需求。该数据集源自经过人工标注的Google关系抽取语料库，专注于解决远程监督中普遍存在的噪声标签问题，通过引入词级与实体级注意力机制，旨在提升模型对复杂语义关系的捕捉能力。GIDS的发布为关系分类任务提供了新的基准，推动了基于注意力的神经网络模型在信息抽取领域的发展，成为后续研究的重要资源。

当前挑战

GIDS数据集所针对的关系抽取任务面临多重挑战：远程监督方法常引入标注噪声，导致模型在训练过程中容易学习到虚假的语义模式；数据集中关系类别分布不均，其中'NA'类别占据显著比例，增加了模型区分有效关系与无关实例的难度；此外，实体提及在文本中的表达具有多样性与歧义性，例如同一实体可能以不同表面形式出现，要求模型具备深层的上下文理解能力。在数据集构建过程中，挑战主要体现在如何从海量文本中精准对齐知识库中的实体关系，并确保标注的一致性；同时，原始语料中实体名称常包含下划线等特殊字符，需通过预处理步骤进行规范化，以适配下游模型的输入要求。

常用场景

经典使用场景

在自然语言处理领域，关系抽取任务旨在从非结构化文本中识别实体间的语义关联。GIDS数据集作为远程监督关系抽取的基准资源，其经典使用场景聚焦于训练和评估基于注意力的神经网络模型。通过提供包含句子、实体提及及关系标签的结构化数据，研究者能够构建模型以自动学习文本中人物教育背景、出生地与逝世地等关键关系，有效缓解传统监督方法对大量人工标注的依赖。

解决学术问题

远程监督关系抽取长期面临噪声标注与语义歧义等挑战。GIDS数据集通过源自人工判定的谷歌关系抽取语料，为学术研究提供了高质量的弱监督基准。该数据集显著推动了基于词级与实体级注意力机制的方法发展，帮助模型精准捕捉句子中与关系相关的语义线索，从而提升关系分类的准确性与鲁棒性，对信息抽取领域的理论创新与技术进步具有深远影响。

衍生相关工作

围绕GIDS数据集，一系列经典研究工作应运而生，尤其体现在注意力机制与远程监督的结合上。原论文提出的词与实体双注意力模型为该领域设立了重要基线，后续研究在此基础上拓展了图神经网络、对抗训练及多任务学习等方向。这些工作不仅深化了对噪声标注下关系抽取的理解，也催生了如BERT等预训练模型在该数据集上的适配与优化，持续推动着信息抽取技术的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集