relationship-extraction-datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/davidsbatista/relationship-extraction-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含用于训练监督模型进行语义关系抽取的注释数据集。数据集分为三组：传统信息抽取、开放信息抽取和远监督。

This repository contains annotated datasets for training supervised models in semantic relation extraction. The dataset is divided into three groups: traditional information extraction, open information extraction, and distant supervision.

创建时间：

2016-02-21

原始信息汇总

数据集概述

本数据集集合了多种用于训练监督模型的语义关系提取的标注数据集，分为三个主要类别：传统信息提取、开放信息提取和远监督。

传统信息提取

AImed
- 语言: 英语
- 年份: 2005
- 类别数: 2
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 语言: 英语
- 年份: 2007
- 类别数: 7
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 语言: 英语
- 年份: 2010
- 类别数: 10 / 19 (directional)
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 语言: 葡萄牙语
- 年份: 2009
- 类别数: 4
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 语言: 英语
- 年份: 2006
- 类别数: 53
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 语言: 英语
- 年份: 2007
- 类别数: 2
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 语言: 英语
- 年份: 2011
- 类别数: 2
- 引用: Overview of BioNLP Shared Task 2011
The DDI corpus
- 语言: 英语
- 年份: 2012
- 类别数: 4
- 引用: The DDI corpus: An annotated corpus with pharmacological substances and drug–drug interactions
ADE-V2
- 语言: 英语
- 年份: 2013
- 类别数: 2
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取

ReVerb
- 语言: 英语
- 年份: 2011
- 类别数: Open
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 语言: 英语
- 年份: 2013
- 类别数: Open
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 语言: 英语
- 年份: 2013
- 类别数: Open
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 语言: 英语
- 年份: 2011
- 类别数: Open
- 引用: Extracting Relation descriptors with Conditional Random Fields

远监督

NYT dataset
- 语言: 英语
- 年份: 2010
- 类别数: Distant
- 引用: Modeling Relations and Their Mentions without Labeled Text
Googles relation-extraction-corpus
- 语言: 英语
- 年份: 2013
- 类别数: Distant
- 引用: https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
PGR Corpus
- 语言: 英语
- 年份: 2019
- 类别数: Distant
- 引用: A Silver Standard Corpus of Human Phenotype-Gene Relations
PGR-crowd Corpus
- 语言: 英语
- 年份: 2020
- 类别数: Distant + Crowdsourced
- 引用: A hybrid approach toward biomedical relation extraction training corpora: combining distant supervision with crowdsourcing

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要分为三种类型：传统信息抽取（Traditional Information Extraction）、开放信息抽取（Open Information Extraction）和远监督（Distantly Supervised）。传统信息抽取数据集通过人工标注预定义的关系类型，如DBpediaRelations-PT和SemEval系列数据集。开放信息抽取数据集则不预设具体关系类型，如ReVerb和ClausIE数据集。远监督数据集通过应用远监督技术自动标注关系，如NYT数据集和PGR数据集。这些数据集的构建旨在为语义关系抽取任务提供多样化的训练和测试资源。

使用方法

使用该数据集时，研究者可以根据具体的研究目标选择合适的数据集类型和语言。对于传统信息抽取任务，可以选择如SemEval2007和SemEval2010等数据集进行模型训练和评估。对于开放信息抽取任务，可以使用ReVerb和ClausIE数据集。对于远监督任务，NYT数据集和PGR数据集是理想的选择。此外，数据集的详细标注信息和引用文献为研究者提供了深入理解和分析的基础，有助于提升模型的性能和解释性。

背景与挑战

背景概述

关系抽取数据集（relationship-extraction-datasets）是由多个研究机构和研究人员在不同时间点创建的，旨在支持语义关系抽取任务的监督模型训练。这些数据集涵盖了从2005年到2020年的多个版本，主要研究人员包括但不限于Subsequence Kernels for Relation Extraction的作者、SemEval-2007 Task 04的团队以及BioNLP Shared Task 2011的组织者。这些数据集的核心研究问题集中在从文本中自动提取实体间的语义关系，对自然语言处理和信息抽取领域具有重要影响。

当前挑战

关系抽取数据集面临的挑战主要包括：1) 领域问题的复杂性，如从生物医学文本中提取药物相互作用关系；2) 构建过程中的数据标注难度，特别是在开放信息抽取和远监督抽取中，如何确保标注的准确性和一致性；3) 数据集的多样性和覆盖范围，不同语言和领域的数据集需要不同的处理和模型适应。此外，数据集的更新和扩展也是一个持续的挑战，以应对不断变化的研究需求和技术进步。

常用场景

经典使用场景

在自然语言处理领域，关系抽取数据集（relationship-extraction-datasets）被广泛应用于训练监督模型，以识别和分类文本中的语义关系。这些数据集分为传统信息抽取、开放信息抽取和远监督信息抽取三类。经典使用场景包括从医学文献中提取药物相互作用关系、从新闻文章中识别人物与组织的关系，以及从生物医学文本中抽取基因与表型的关联。这些场景通过手动标注或远监督技术生成数据，为模型训练提供了丰富的语料库。

解决学术问题

关系抽取数据集解决了自然语言处理中的关键学术问题，如语义关系的自动识别与分类。通过提供大量标注数据，这些数据集帮助研究人员开发和验证高效的机器学习模型，从而在文本中自动提取有价值的信息。例如，在生物医学领域，这些数据集支持了药物相互作用和基因表型关系的自动提取，极大地促进了相关研究的发展。

实际应用

在实际应用中，关系抽取数据集被广泛用于信息检索、知识图谱构建和智能问答系统。例如，在医疗领域，自动提取药物相互作用信息可以提高药物安全性和治疗效果；在新闻分析中，识别人物与组织的关系有助于构建更精确的事件脉络图。此外，这些数据集还支持了企业知识管理和法律文档分析等应用，显著提升了信息处理的效率和准确性。

数据集最近研究