DBpediaRelations-PT

github2018-02-17 更新2024-05-31 收录

下载链接：

https://github.com/xgeric/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含葡萄牙语句子的集合，这些句子表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远监督收集，并随后进行了人工修订。

A collection of Portuguese sentences that express semantic relationships between entity pairs extracted from DBPedia. These sentences were collected through distant supervision and subsequently revised manually.

创建时间：

2018-02-16

原始信息汇总

数据集概述

传统信息提取（Traditional Information Extraction）

DBpediaRelations-PT
- 描述: 葡萄牙语句子集合，表达DBPedia中实体间的语义关系，通过远程监督收集并人工修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，包含4084个蛋白质引用和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 包含7种关系类型，共1,529个标注示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 作为多路分类任务，需从10种关系中选择标签，共10,717个标注示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 首个葡萄牙语评估竞赛，旨在检测和分类文本中命名实体间的关系，使用四种关系分类。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从271篇维基百科文章中抽样1127段落，标注4701个关系实例，包含53个训练数据标签。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对，分别有995和601个实例，其中156和45个为正例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两种二元部分关系：蛋白质成分和亚单元复合体。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学病例报告中自动提取药物相关不良反应的系统标注语料库。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取（Open Information Extraction）

ReVerb
- 描述: 从网络随机抽样的500个句子。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个数据集：ReVerb数据集（500个句子），维基百科随机句子（200个），纽约时报句子（200个）。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500, NYT-500, PENN-100三个数据集，分别用于不同的实验。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和维基百科两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远程监督（Distantly Supervised）

NYT dataset
- 描述: 通过将Freebase关系与纽约时报语料库对齐生成，使用2005-2006年的句子作为训练集，2007年的句子作为测试集。
- 引用: Modeling Relations and Their Mentions without Labeled Text
Googles relation-extraction-corpus
- 描述: 用于关系提取的语料库，具体描述可见此链接。
- 引用: https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建采用远程监督的方法，从DBPedia中提取实体对之间的语义关系，并通过人工审核的方式对收集到的句子进行筛选和修订，确保了数据集的质量和准确性。

特点

该数据集以葡萄牙语文本为主，包含了一系列表达实体对之间语义关系的句子。其特点在于结合了远程监督与人工审核，既保证了数据量的充足，也确保了标注的精确性。此外，数据集覆盖了预定的关系类型，适用于监督模型的训练。

使用方法

使用DBpediaRelations-PT数据集时，用户首先需要解压数据文件，然后可以利用其中的句子对进行机器学习模型的训练，以实现语义关系提取的任务。数据集提供了清晰的标注格式，便于用户进行数据预处理和模型评估。

背景与挑战

背景概述

DBpediaRelations-PT数据集，源于对DBpedia葡萄牙语版本的深入挖掘，旨在通过远程监督的方式收集表达实体对之间语义关系的葡萄牙语句子。该数据集由研究人员于2013年构建，并以论文《Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction》为学术依据。它不仅丰富了葡萄牙语自然语言处理领域的关系抽取资源，而且对推动跨语言语义关系抽取研究具有重要的参考价值。

当前挑战

在构建过程中，DBpediaRelations-PT数据集面临的挑战主要在于远程监督带来的噪音数据问题，这要求研究人员必须对收集到的句子进行人工校正。此外，数据集中句子的多样性和复杂性对关系抽取算法提出了更高的要求，需要算法能够准确识别并抽取实体间的细粒度语义关系。

常用场景

经典使用场景

DBpediaRelations-PT数据集是葡萄牙语义关系提取任务的重要资源。其经典使用场景在于训练监督模型以识别并抽取文本中实体对之间的语义关系，进而为构建知识图谱或进行语义理解提供基础数据支撑。

解决学术问题

该数据集解决了语义关系抽取中的标注数据不足问题，通过远监督方法收集并人工修订了表达实体间关系的句子。这对于减少标注成本、加速模型训练及提升关系抽取准确率具有重要意义。同时，它为葡萄牙语的关系抽取研究提供了标准化数据，有助于推动该领域的发展。

衍生相关工作

基于DBpediaRelations-PT数据集，研究者们开展了一系列相关工作，包括但不限于改进关系抽取模型、探索跨语言信息抽取方法以及结合远程监督和规则方法来提升抽取效果等，推动了语义关系抽取领域的学术研究和技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集