Annotated Semantic Relationships Datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个标注的语义关系数据集，用于训练监督模型进行语义关系提取。数据集分为传统信息提取、开放信息提取和远距离监督三个类别，涵盖英语和葡萄牙语。

This repository contains multiple annotated semantic relation datasets designed for training supervised models in semantic relation extraction. The datasets are categorized into three types: traditional information extraction, open information extraction, and distant supervision, covering both English and Portuguese languages.

创建时间：

2016-02-21

原始信息汇总

数据集概述

本数据集包含多个用于训练监督模型的语义关系提取的标注数据集，分为三个主要类别：传统信息提取、开放信息提取和远监督。

传统信息提取

DBpediaRelations-PT
- 数据集: DBpediaRelations-PT-0.2.txt.bz2
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
- 描述: 从DBPedia提取的葡萄牙语句子集合，表达实体间的语义关系。
AImed
- 数据集: aimed.tar.gz
- 引用: Subsequence Kernels for Relation Extraction
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用。
SemEval 2007
- 数据集: SemEval2007-Task4.tar.gz
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
- 描述: 包含7种关系类型，共1,529个标注示例。
SemEval 2010
- 数据集: SemEval2010_task8_all_data.tar.gz
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
- 描述: 包含10,717个标注示例，用于多路分类任务。
ReRelEM
- 数据集: ReRelEM.tar.gz
- 引用: Relation detection between named entities: report of a shared task
- 描述: 首个葡萄牙语实体关系检测评估竞赛。
Wikipedia
- 数据集: wikipedia_datav1.0.tar.gz
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
- 描述: 从Wikipedia抽取的1127个段落，标注了4701个关系实例。
Web
- 数据集: hlt-naacl08-data.txt
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
- 描述: 从网络抽取的企业收购对和个人出生地对。
BioNLP Shared Task
- 数据集: BioNLP.tar.gz
- 引用: Overview of BioNLP Shared Task 2011
- 描述: 涉及识别蛋白质成分和亚单位复合物之间的关系。
The DDI corpus
- 数据集: DDICorpus2013.zip
- 引用: The DDI corpus: An annotated corpus with pharmacological substances and drug–drug interactions
- 描述: 包含药物-药物相互作用的MedLine摘要和DrugBank文档。
ADE-V2
- 数据集: ADE-Corpus-V2.zip
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports
- 描述: 用于自动提取药物相关不良反应的系统标注语料库。
KBP-37
- 数据集: kbp37-master.zip
- 引用: Relation Classification via Recurrent Neural Network
- 描述: 对MIML-RE标注数据集的修订，包含33,811个标注句子。

开放信息提取

ReVerb
- 数据集: reverb_emnlp2011_data.tar.gz
- 引用: Identifying Relations for Open Information Extraction
- 描述: 从网络随机链接服务抽取的500个句子。
ClausIE
- 数据集: ClausIE-datasets.tar.gz
- 引用: ClausIE: Clause-Based Open Information Extraction
- 描述: 包含来自Reverb、Wikipedia和纽约时报的句子，用于评估开放信息提取。
Effectiveness and Efficiency of Open Relation Extraction
- 数据集: emnlp13_ualberta_experiments_v2.zip
- 引用: Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个子数据集，用于评估开放关系提取的效果和效率。
Extracting Relation descriptors with Conditional Random Fields
- 数据集: DataSet-IJCNLP2011.tar.gz
- 引用: Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含来自纽约时报和Wikipedia的句子，用于提取关系描述符。

远监督

NYT dataset
- 数据集: http://iesl.cs.umass.edu/riedel/ecml/
- 引用: Modeling Relations and Their Mentions without Labeled Text
- 描述: 通过将Freebase关系与纽约时报语料库对齐生成的数据集。
Googles relation-extraction-corpus
- 数据集: https://github.com/google-research-datasets/relation-extraction-corpus
- 引用: https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
- 描述: 用于关系提取研究的谷歌研究数据集。
PGR Corpus
- 数据集: PGR.zip
- 引用: A Silver Standard Corpus of Human Phenotype-Gene Relations
- 描述: 包含人类表型-基因关系的银标准语料库。
PGR-crowd Corpus
- 数据集: PGR-crowd.zip
- 引用: A hybrid approach toward biomedical relation extraction training corpora: combining distant supervision with crowdsourcing
- 描述: 结合远监督和众包方法生成的生物医学关系提取训练语料库。

搜集汇总

数据集介绍

构建方式

Annotated Semantic Relationships Datasets 的构建方式主要分为三类：传统信息抽取（Traditional Information Extraction）、开放信息抽取（Open Information Extraction）和远监督（Distantly Supervised）。传统信息抽取数据集通过人工标注预定义的关系类型，如DBpediaRelations-PT和AImed。开放信息抽取数据集则不限制关系类型，如ReVerb和ClausIE。远监督数据集通过应用远监督技术自动标注关系，如NYT dataset和PGR Corpus。这些数据集的构建旨在为语义关系抽取任务提供多样化的训练和测试资源。

特点

Annotated Semantic Relationships Datasets 的特点在于其多样性和广泛性。数据集涵盖了多种语言，包括英语和葡萄牙语，且时间跨度从2005年到2020年，反映了不同年代的技术发展。此外，数据集的规模和复杂度各异，从小型的SemEval数据集到大规模的BioNLP和KBP-37数据集，满足了不同研究需求。数据集的多样性还体现在其应用领域，从生物医学到通用文本，为跨领域的研究提供了丰富的资源。

使用方法

使用Annotated Semantic Relationships Datasets时，首先需根据研究需求选择合适的数据集类型和语言。对于传统信息抽取任务，可以选择预定义关系类型的数据集；对于开放信息抽取任务，则应选择不限制关系类型的数据集。远监督数据集适用于需要大规模自动标注的场景。使用时，建议先进行数据预处理，如分词和命名实体识别，然后根据具体任务选择合适的模型进行训练和评估。数据集的多样性为模型选择和优化提供了广阔的空间，同时也要求研究者具备跨领域的知识和技能。

背景与挑战

背景概述

Annotated Semantic Relationships Datasets（注释语义关系数据集）是一个专注于语义关系提取的监督模型训练数据集。该数据集由多个子集组成，涵盖了传统信息提取、开放信息提取和远监督信息提取三种主要类型。自2005年以来，该数据集由多个研究机构和研究人员共同开发，包括但不限于麻省理工学院、纽约大学和谷歌研究团队。其核心研究问题在于如何从文本中自动提取和分类语义关系，这对于自然语言处理和信息检索领域具有重要意义。该数据集的创建和维护对推动语义关系提取技术的发展起到了关键作用。

当前挑战

Annotated Semantic Relationships Datasets面临的主要挑战包括：1) 数据集的多样性和复杂性，不同类型的数据集（如传统信息提取、开放信息提取和远监督信息提取）在处理和标注上存在显著差异；2) 数据集的规模和质量，尽管数据集包含多个子集，但某些子集的数据量相对较小，且标注质量参差不齐；3) 跨语言和跨领域的适应性问题，数据集主要以英语和葡萄牙语为主，且集中在特定领域，如生物医学和新闻报道，这限制了其在其他语言和领域中的应用。此外，数据集的构建过程中，如何确保标注的一致性和准确性也是一个重要挑战。

常用场景

经典使用场景

Annotated Semantic Relationships Datasets 数据集在语义关系提取领域中具有经典的使用场景。该数据集通过手动标注和远监督技术，提供了丰富的语义关系实例，适用于训练监督模型。其经典用途包括但不限于：1) 传统信息提取，如从文本中识别和分类预定义类型的关系；2) 开放信息提取，即从文本中提取无特定类型的关系；3) 远监督关系提取，通过远监督技术自动标注关系。这些场景广泛应用于自然语言处理、信息检索和知识图谱构建等领域。

实际应用

Annotated Semantic Relationships Datasets 数据集在实际应用中展现了广泛的应用前景。在生物医学领域，该数据集被用于提取药物-药物相互作用和基因-表型关系，有助于药物研发和临床决策。在法律和金融领域，数据集帮助提取合同条款和公司关系，提高了文档处理的自动化水平。此外，在知识图谱构建和智能问答系统中，该数据集为实体关系的自动识别和链接提供了关键支持，增强了系统的智能化程度。

衍生相关工作

Annotated Semantic Relationships Datasets 数据集衍生了一系列相关经典工作。例如，基于该数据集的开放信息提取方法，如ReVerb和ClausIE，显著提升了从非结构化文本中提取关系的能力。此外，远监督关系提取技术的发展，如NYT数据集的应用，推动了大规模关系提取模型的训练和评估。这些衍生工作不仅丰富了关系提取的研究方法，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集