DBpediaRelations-PT

github2017-06-29 更新2024-05-31 收录

下载链接：

https://github.com/USCDataScience/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含葡萄牙语句子的集合，这些句子表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远监督收集，并随后进行了人工修订。

A collection of Portuguese sentences that express semantic relationships between entity pairs extracted from DBPedia. These sentences were gathered through distant supervision and subsequently revised manually.

创建时间：

2017-06-29

原始信息汇总

数据集概述

传统信息提取

DBpediaRelations-PT
- 描述: 包含从DBPedia提取的葡萄牙语句子，表达实体间的语义关系，通过远监督收集并人工修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，包含4084个蛋白质引用和约1000个标记的交互。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 小型数据集，包含7种关系类型和总共1,529个标注示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 多路分类任务，需从10种关系中选择标签，包含10,717个标注示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 首个葡萄牙语评估竞赛，旨在检测和分类文本中命名实体间的关系，使用四种关系分类。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从Wikipedia抽样的1127个段落，标注了4701个关系实例，包括人-人关系、人-组织关系及生平事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对，分别有995和601个实例，其中156和45个为正例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两个二元部分关系：PROTEIN-COMPONENT和SUBUNITCOMPLEX，数据扩展自先前资源。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 系统性标注的语料库，支持从医学案例报告中自动提取药物相关不良反应的方法开发和验证。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取

ReVerb
- 描述: 从Web抽样的500个句子，用于开放信息提取。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个不同数据集：Reverb数据集、Wikipedia随机句子和纽约时报句子。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，用于评估开放关系提取的有效性和效率。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和Wikipedia数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远监督

NYT dataset
- 描述: 通过将Freebase关系与纽约时报语料库对齐生成的数据集，用于远监督关系提取任务。
- 引用: Modeling Relations and Their Mentions without Labeled Text

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建采取了一种半自动化方法，首先通过 distant supervision 技术从 DBPedia 中提取实体间的语义关系，随后对提取的句子进行人工审核和修订，确保了数据集的质量和准确性。

特点

该数据集的特点在于其专注于葡萄牙语语义关系提取，包含了一系列表达实体对之间语义关系的葡萄牙语句子。这些句子经过人工修订，具有较高的标注质量和可靠性，为葡萄牙语自然语言处理领域提供了宝贵的数据资源。

使用方法

使用DBpediaRelations-PT数据集时，用户可以将其作为监督学习模型的训练数据，以进行语义关系提取任务。数据集以文本文件形式提供，其中包含了已标注的实体对和相应的语义关系，用户需先对数据格式有所了解，然后才能有效地将其集成到自己的学习算法中。

背景与挑战

背景概述

DBpediaRelations-PT数据集是一组葡萄牙语文本句子的集合，这些句子表达了从DBPedia中提取的实体对之间的语义关系。该数据集通过远监督方法收集，并经过人工修订。其创建旨在为监督模型训练提供注释数据，以执行语义关系提取任务。该数据集的研究背景源于对葡萄牙语语义关系自动提取的需求，由相关领域的研究人员和机构推动，对于葡萄牙语的语义关系提取研究具有重要的参考价值。

当前挑战

DBpediaRelations-PT数据集在构建过程中遇到的挑战主要包括如何确保通过远监督方法收集的关系实例的质量，以及人工修订过程中的主观性和一致性。在研究领域问题上，该数据集面临的挑战是如何提高关系提取的准确性和覆盖面，特别是在处理复杂和多样性的语义关系时。

常用场景

经典使用场景

DBpediaRelations-PT数据集作为葡萄牙语义关系提取任务的训练资源，其经典使用场景在于为监督模型训练提供标注语义关系的数据。这些关系数据通过远监督技术收集并经过人工修正，使得研究人员能够利用该数据集对模型进行训练，以识别和提取文本中实体间的语义关联。

衍生相关工作

基于DBpediaRelations-PT数据集，研究者可以进一步开展多种相关工作，例如开发新的语义关系提取算法、进行跨语言语义关系提取的比较研究，以及探索远监督技术在语义关系提取中的应用。这些衍生工作将进一步推动语义理解和知识图谱领域的研究进展。

数据集最近研究