five

DFKI-SLT/gids

收藏
Hugging Face2023-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/gids
下载链接
链接失效反馈
官方服务:
资源简介:
Google-IISc Distant Supervision (GIDS) 是一个用于远程监督关系抽取的新数据集。该数据集源自经过人工判断的Google关系抽取语料库。数据集包含两种配置:gids和gids_formatted。gids配置包含句子、实体ID、实体文本和关系标签,而gids_formatted配置则包含分词后的句子、实体起始和结束位置以及关系标签。数据集的语言为英语,数据量在10K到100K之间。

Google-IISc Distant Supervision (GIDS) is a novel dataset for distant supervised relation extraction. It is derived from a manually curated Google relation extraction corpus. The dataset provides two configurations: gids and gids_formatted. The gids configuration contains sentences, entity IDs, entity texts and relation labels, while the gids_formatted configuration includes tokenized sentences, the start and end positions of entities, and relation labels. The dataset is in English, with a size ranging from 10K to 100K.
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

名称: Google-IISc Distant Supervision (GIDS) dataset for distantly-supervised relation extraction

语言: 英语

许可证: 其他

多语言性: 单语

大小: 10K<n<100k

源数据: 扩展自其他数据集

标签: 关系抽取

任务类别: 文本分类

任务ID: 多类分类

数据集结构

数据实例

  • gids:

    • 特征:
      • sentence: 字符串
      • subj_id: 字符串
      • obj_id: 字符串
      • subj_text: 字符串
      • obj_text: 字符串
      • relation: 分类标签(0: NA, 1: /people/person/education./education/education/institution, 2: /people/person/education./education/education/degree, 3: /people/person/place_of_birth, 4: /people/deceased_person/place_of_death)
    • 数据分割:
      • train: 11297个样本
      • validation: 1864个样本
      • test: 5663个样本
  • gids_formatted:

    • 特征:
      • token: 字符串列表
      • subj_start: 整数
      • subj_end: 整数
      • obj_start: 整数
      • obj_end: 整数
      • relation: 分类标签(同上)
    • 数据分割:
      • train: 11297个样本
      • validation: 1864个样本
      • test: 5663个样本

数据集创建

  • 注释创建者: 其他
  • 语言创建者: 发现
  • 许可证: 其他
  • 多语言性: 单语
  • 大小类别: 10K<n<100k
  • 源数据集: 扩展自其他

数据集使用注意事项

  • 社会影响: 未提供
  • 偏见讨论: 未提供
  • 其他已知限制: 未提供
搜集汇总
数据集介绍
main_image_url
构建方式
在关系抽取领域,远监督方法通过自动对齐知识库与文本语料来生成标注数据,有效缓解了人工标注的高成本问题。GIDS数据集构建于谷歌关系抽取语料库的基础之上,该语料库经过人工判断,确保了数据源的可靠性。数据集包含两个版本:原始版本提供完整句子及实体信息,格式化版本则利用spaCy工具进行分词处理,并移除了实体中的下划线,同时提供了精确的实体位置偏移量,便于模型直接处理。这种双重格式设计兼顾了数据原始性与预处理便利性,为研究提供了灵活的基础。
特点
GIDS数据集专注于人物相关的几种关键关系,如教育机构、学位、出生地与逝世地等,涵盖了现实世界中常见的语义关联。其标注体系包含一个特殊的“NA”类别,用于标识句子中不存在目标关系的情况,这有助于模型学习区分相关与无关语境。数据规模适中,包含超过一万条训练实例,划分为训练、验证与测试集,支持可靠的模型评估。此外,数据以英文呈现,确保了在自然语言处理研究中的广泛适用性。
使用方法
使用该数据集时,研究人员可通过Hugging Face的datasets库直接加载,并选择原始或格式化配置。原始版本适合需要自定义预处理流程的实验,而格式化版本提供了即用的分词结果与实体边界,能加速模型输入层的构建。数据集适用于多类关系分类任务,可服务于注意力机制、远程监督算法等前沿研究。在模型训练过程中,建议注意数据中“NA”类别的平衡处理,以优化分类性能。
背景与挑战
背景概述
在自然语言处理领域,关系抽取作为信息抽取的核心任务,旨在从非结构化文本中识别实体间的语义关联。Google-IISc Distant Supervision (GIDS) 数据集于2018年由Sharmistha Jat、Siddhesh Khandelwal及Partha P. Talukdar等研究人员共同构建,其研究背景植根于远程监督方法的优化需求。该数据集源自经过人工标注的Google关系抽取语料库,专注于解决远程监督中普遍存在的噪声标签问题,通过引入词级与实体级注意力机制,旨在提升模型对复杂语义关系的捕捉能力。GIDS的发布为关系分类任务提供了新的基准,推动了基于注意力的神经网络模型在信息抽取领域的发展,成为后续研究的重要资源。
当前挑战
GIDS数据集所针对的关系抽取任务面临多重挑战:远程监督方法常引入标注噪声,导致模型在训练过程中容易学习到虚假的语义模式;数据集中关系类别分布不均,其中'NA'类别占据显著比例,增加了模型区分有效关系与无关实例的难度;此外,实体提及在文本中的表达具有多样性与歧义性,例如同一实体可能以不同表面形式出现,要求模型具备深层的上下文理解能力。在数据集构建过程中,挑战主要体现在如何从海量文本中精准对齐知识库中的实体关系,并确保标注的一致性;同时,原始语料中实体名称常包含下划线等特殊字符,需通过预处理步骤进行规范化,以适配下游模型的输入要求。
常用场景
经典使用场景
在自然语言处理领域,关系抽取任务旨在从非结构化文本中识别实体间的语义关联。GIDS数据集作为远程监督关系抽取的基准资源,其经典使用场景聚焦于训练和评估基于注意力的神经网络模型。通过提供包含句子、实体提及及关系标签的结构化数据,研究者能够构建模型以自动学习文本中人物教育背景、出生地与逝世地等关键关系,有效缓解传统监督方法对大量人工标注的依赖。
解决学术问题
远程监督关系抽取长期面临噪声标注与语义歧义等挑战。GIDS数据集通过源自人工判定的谷歌关系抽取语料,为学术研究提供了高质量的弱监督基准。该数据集显著推动了基于词级与实体级注意力机制的方法发展,帮助模型精准捕捉句子中与关系相关的语义线索,从而提升关系分类的准确性与鲁棒性,对信息抽取领域的理论创新与技术进步具有深远影响。
衍生相关工作
围绕GIDS数据集,一系列经典研究工作应运而生,尤其体现在注意力机制与远程监督的结合上。原论文提出的词与实体双注意力模型为该领域设立了重要基线,后续研究在此基础上拓展了图神经网络、对抗训练及多任务学习等方向。这些工作不仅深化了对噪声标注下关系抽取的理解,也催生了如BERT等预训练模型在该数据集上的适配与优化,持续推动着信息抽取技术的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作