five

Saibo-creator/wiki-nre

收藏
Hugging Face2024-04-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Saibo-creator/wiki-nre
下载链接
链接失效反馈
官方服务:
资源简介:
Wiki-NRE数据集展示了其关系分布的显著偏斜:前10个关系构成了92%的三元组,其中前3个关系单独占69%。我们创建了`stratified_test_1K`,它是从测试集中缩减到1,000个样本,并具有平衡的关系分布。

Wiki-NRE数据集展示了其关系分布的显著偏斜:前10个关系构成了92%的三元组,其中前3个关系单独占69%。我们创建了`stratified_test_1K`,它是从测试集中缩减到1,000个样本,并具有平衡的关系分布。
提供机构:
Saibo-creator
原始信息汇总

数据集概述

基本信息

  • 语言: 英语(en)
  • 大小: 10万至100万条记录

数据集特征

  • text: 字符串类型
  • id: 整数类型(int64)
  • triplets: 列表类型,包含以下结构:
    • object:
      • surfaceform: 字符串类型
      • uri: 字符串类型
    • predicate:
      • surfaceform: 字符串类型
      • uri: 字符串类型
    • subject:
      • surfaceform: 字符串类型
      • uri: 字符串类型
  • entities: 列表类型,包含以下结构:
    • surfaceform: 字符串类型
    • uri: 字符串类型
  • relations: 列表类型,包含以下结构:
    • surfaceform: 字符串类型
    • uri: 字符串类型
  • linearized_fully_expanded: 字符串类型
  • linearized_subject_collapsed: 字符串类型

数据分割

  • train: 223,538条记录,117,206,023字节
  • test: 29,620条记录,15,597,162字节
  • stratified_test_1K: 1,000条记录,608,393字节
  • val: 980条记录,522,524字节

下载与数据集大小

  • 下载大小: 61,105,204字节
  • 数据集大小: 133,934,102字节

数据集特性

  • 关系分布显著倾斜:前10个关系占92%,前3个占69%。
  • 创建了stratified_test_1K,从测试集中抽取1,000个样本,关系分布平衡。

数据集来源

  • 该数据集用于知识库丰富化的神经关系抽取研究,由Trisedya等人于2019年提出。
搜集汇总
数据集介绍
main_image_url
构建方式
Saibo-creator/wiki-nre数据集的构建是基于对维基百科文本中实体及其关系的抽取。该数据集通过远监督方法,结合共指消解和释义检测,收集高质量的训练数据。数据集中包含文本、实体、关系以及三元组等信息,这些信息被结构化为易于机器处理的形式,以便于后续的神经网络模型训练和知识库丰富。
特点
该数据集的特点在于其关系分布存在显著偏斜,前10个关系构成了92%的三元组,其中前3个关系占据了69%。为了解决这一问题,数据集特别构建了一个名为`stratified_test_1K`的子集,该子集从测试集中缩减至1000个样本,并实现了关系的平衡分布。此外,数据集还提供了相应的实体和关系子集目录,以便于用户进行更精细的数据操作。
使用方法
使用该数据集时,用户可以从HuggingFace提供的链接中下载不同 splits 的数据文件,包括训练集、测试集、平衡分布的测试子集以及验证集。数据集的配置文件指明了各个数据文件的路径,用户可以根据这些路径加载相应的数据,并利用数据集中的信息进行知识库的丰富、实体关系抽取等任务。
背景与挑战
背景概述
在知识图谱构建与关系提取领域,Saibo-creator/wiki-nre数据集的诞生标志着一种新的研究进展。该数据集由Trisedya等人于2019年创建,依托于维基百科的丰富内容,旨在通过端到端的方式提取实体及其关系,进而丰富知识库。研究团队来自于多个知名机构,包括德国马克思普朗克研究所等,其成果在ACL会议上发表,对知识图谱的自动构建与维护领域产生了深远影响。
当前挑战
该数据集在构建过程中面临了诸多挑战,首先,关系分布的偏斜问题导致了数据集中少数关系占据绝大多数三元组,这对于模型的泛化能力提出了挑战。其次,实体和关系的识别与映射过程中,传统的命名实体消歧方法容易引入误差,从而影响整体精确度和召回率。为了应对这些挑战,研究团队采用了远程监督、共指消解和释义检测等方法来收集高质量的训练数据,并设计了一种基于n-gram注意力的模型来捕捉句子中的多词实体名称。
常用场景
经典使用场景
在知识图谱构建与完善的过程中,Saibo-creator/wiki-nre数据集扮演着至关重要的角色。该数据集广泛用于关系抽取任务,旨在从文本中提取出实体及其相互之间的关系,并以三元组的形式表示。经典的使用场景包括利用其预训练好的模型直接进行关系抽取,或者在此基础上进行微调以适应特定的领域需求。
解决学术问题
该数据集解决了知识图谱构建中关系抽取的准确性问题。通过提供大量标注好的三元组数据,研究者能够训练出更加精确的模型,从而提高关系抽取的F1分数。这对于减少知识图谱中的噪音数据,提升图谱质量和丰富度具有显著意义。
衍生相关工作
基于wiki-nre数据集,研究者们衍生出了一系列相关工作,如提出了更为高级的模型架构、关系抽取算法以及实体识别与消歧技术。这些工作进一步推动了知识图谱和自然语言处理领域的发展,为相关任务提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作