DBpediaRelations-PT

github2020-03-12 更新2024-05-31 收录

下载链接：

https://github.com/qiuwei/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含葡萄牙语句子的集合，这些句子表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远程监督收集，并随后进行了人工修订。

A collection of Portuguese sentences that express semantic relationships between entity pairs extracted from DBPedia. These sentences were collected through distant supervision and subsequently revised manually.

创建时间：

2018-08-14

原始信息汇总

数据集概述

传统信息提取（Traditional Information Extraction）

DBpediaRelations-PT
- 描述: 葡萄牙语句子集合，表达实体间的语义关系，从DBPedia提取并通过远监督收集，后经人工修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，其余25篇不涉及任何相互作用。包含4084个蛋白质引用和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 小型数据集，包含7种关系类型和总计1,529个标注示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 多路分类任务，需从10种关系中选择标签，总计10,717个标注示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 葡萄牙语的首次评估竞赛，旨在检测和分类文本中命名实体间的关系。分类包括身份、包含、位于和其他20种关系。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从271篇维基百科文章中抽样1127个段落，标注了4701个关系实例，包括人-人、人-组织关系及生日、职位等事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对的数据集，分别有995和601个实例，其中正例分别为156和45。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两种二元部分关系：蛋白质组件和亚单元复合体。数据集扩展了先前引入的资源。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学案例报告中自动提取药物相关不良反应的系统性标注语料库。通过多轮双标注确保一致性，并用于训练和验证分类模型。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取（Open Information Extraction）

ReVerb
- 描述: 从网络随机抽样的500个句子，用于开放信息提取。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个不同数据集：Reverb数据集（500个句子）、维基百科随机句子（200个）和纽约时报集合（200个）。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，分别代表网络文本、纽约时报新闻和Penn Treebank的句子。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和维基百科两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远监督（Distantly Supervised）

NYT dataset
- 描述: 通过将Freebase关系与纽约时报语料库对齐生成的数据集，用于远监督关系提取任务。
- 引用: Modeling Relations and Their Mentions without Labeled Text
Googles relation-extraction-corpus
- 描述: 由Google开发的关系提取语料库，用于训练和评估关系提取模型。
- 引用: https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建，是通过从DBPedia中提取实体对之间的语义关系，并以葡萄牙语句子形式进行 distant supervision 收集，随后对收集到的句子进行人工修订，以确保标注的质量和准确性。

使用方法

使用DBpediaRelations-PT数据集时，用户可以从提供的压缩文件中解压出标注的葡萄牙语文本，这些文本包含了实体对的语义关系。用户可以依据数据集中的关系类型，将数据集应用于监督学习模型的训练，以实现语义关系提取。同时，该数据集也支持进一步的数据挖掘和关系类型探索。

背景与挑战

背景概述

DBpediaRelations-PT数据集，创建于葡萄牙语义关系提取的研究背景之下，由研究人员通过对DBPedia葡萄牙语内容进行远程监督收集句子，并经过人工修订而成。该数据集的构建旨在推动葡萄牙语自然语言处理领域的发展，尤其是语义关系提取任务。其主要研究人员或机构尚未明确指出，但该数据集的发布对于相关领域的研究具有显著影响，为葡萄牙语义关系提取研究提供了宝贵的资源。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：一是远程监督带来的噪音数据问题，这可能会影响模型的学习效果；二是人工修订过程中的主观性，可能会引入偏差；三是在语义关系提取任务中，如何有效处理语言自身的复杂性，如词形变化、多义词等。此外，该数据集在解决葡萄牙语义关系提取领域问题方面，面临的挑战包括如何提高提取的准确性和覆盖性，以及如何进一步扩展数据集规模以增强模型的泛化能力。

常用场景

经典使用场景

DBpediaRelations-PT数据集是一组葡萄牙语文本，旨在表达通过远程监督从DBPedia中提取的实体对之间的语义关系。该数据集的经典使用场景在于训练监督模型进行语义关系提取任务，通过手动校正的远程监督方法收集句子，进而用于模型的训练与评估。

解决学术问题

该数据集解决了葡萄牙语语义关系提取的学术研究问题，提供了标注的语义关系实例，有助于研究者开发和应用监督学习方法。其对于促进葡萄牙语自然语言处理技术的发展具有显著意义，并为跨语言语义关系提取研究提供了宝贵的资源。

实际应用

在实际应用中，DBpediaRelations-PT数据集可用于改善葡萄牙语信息提取系统，支持构建知识图谱和增强语义搜索引擎。此外，它还可用于开发智能问答系统和增强机器翻译的准确性。

数据集最近研究