DBpediaRelations-PT

github2019-05-08 更新2024-05-31 收录

下载链接：

https://github.com/dddragons/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个葡萄牙语句子集合，表达DBPedia中实体对之间的语义关系。这些句子通过远程监督收集，并进行了人工修订。

A collection of Portuguese sentences expressing semantic relationships between entity pairs in DBPedia. These sentences were collected through distant supervision and have been manually revised.

创建时间：

2017-09-08

原始信息汇总

数据集概述

传统信息提取

DBpediaRelations-PT
- 描述: 包含从DBPedia提取的葡萄牙语句子，表达实体间的语义关系。通过远监督收集后人工修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，其余25篇不涉及任何相互作用。共有4084个蛋白质参考和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 小型数据集，包含7种关系类型和总计1,529个标注示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 作为多路分类任务，每个示例的标签必须从完整的十个关系集中选择。包含10,717个标注示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 首个葡萄牙语评估竞赛，旨在检测和分类运行文本中命名实体间的关系。使用四种关系分类：身份、包含、位于和其他。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从在线百科Wikipedia抽样1127个段落，标记了4701个关系实例。包含大量人-人关系，以及人与组织的关系和传记事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对的数据集。企业收购测试集有995个实例，其中156个为正例。个人出生地测试集有601个实例，其中45个为正例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两个二元部分关系：PROTEIN-COMPONENT和SUBUNITCOMPLEX。数据集扩展了先前引入的资源。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学案例报告中自动提取药物相关不良反应的系统注释语料库。通过多轮双注释确保一致性，并生成代表性共识注释。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取

ReVerb
- 描述: 从Web抽样的500个句子，使用Yahoo的随机链接服务获取。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个不同数据集：Reverb数据集（500个句子）、Wikipedia随机句子（200个）和纽约时报集合（200个句子）。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，分别代表不同的文本质量和复杂性。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和Wikipedia两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远监督

NYT dataset
- 描述: 通过将Freebase关系与纽约时报(NYT)语料库对齐生成的数据集，用于远监督关系抽取任务。训练集来自2005-2006年的句子，测试集来自2007年的句子。
- 引用: Modeling Relations and Their Mentions without Labeled Text

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建是通过从DBPedia中提取实体对之间的语义关系，并采用远程监督方法进行标注，随后这些标注的句子经过了人工复核。具体而言，该数据集收集了葡萄牙语中表达语义关系对的句子，旨在为监督模型训练提供支持，以完成语义关系提取任务。

特点

DBpediaRelations-PT数据集的特点在于，其包含了葡萄牙语环境中提取的语义关系实例，覆盖了从DBPedia中抽取的实体对。该数据集利用远程监督技术进行构建，并经过人工审查，确保了标注的质量和准确性。此外，数据集的构建充分考虑了葡萄牙语的语法和语义特性，有利于相关任务的模型训练和评估。

使用方法

使用DBpediaRelations-PT数据集时，用户首先需要下载并解压数据集文件。随后，用户可以根据数据集提供的语义关系标注，利用监督学习模型进行训练，以实现语义关系提取。此外，数据集的README文件中提供了引用信息，便于用户在研究成果中正确引用数据集来源。

背景与挑战

背景概述

DBpediaRelations-PT数据集，创建于葡萄牙语义关系提取研究领域，由一组研究人员通过远监督方法收集并手动修订而成。该数据集包含葡萄牙语句子，用以表达DBPedia中实体对之间的语义关系。其研究背景主要源于对葡萄牙语语义关系提取的需求，旨在推动葡萄牙语自然语言处理技术的发展。DBpediaRelations-PT数据集的发布，对葡萄牙语义关系提取领域产生了重要影响，为相关研究提供了宝贵的资源。

当前挑战

DBpediaRelations-PT数据集在构建过程中，研究人员面临了多方面的挑战。首先，远监督方法的应用带来了标注质量的不确定性，需要通过手动修订来提高数据集的准确性。其次，葡萄牙语资源的稀缺性使得语义关系标注的难度增加。此外，在语义关系提取任务中，如何有效地处理噪声数据和提升模型的泛化能力，是该数据集面临的主要挑战之一。

常用场景

经典使用场景

DBpediaRelations-PT数据集是葡萄牙语义关系提取任务的重要资源。该数据集收集了从DBPedia中提取的实体对之间的语义关系句子，经过远程监督后人工修订。其经典使用场景在于训练监督模型以执行语义关系提取任务，特别是对于那些需要理解葡萄牙语语境下实体间关系的自然语言处理应用而言，具有不可或缺的参考价值。

解决学术问题

该数据集解决了学术研究中对葡萄牙语语义关系自动提取的需求问题。通过提供预标注的语义关系实例，DBpediaRelations-PT降低了研究者进行语义关系提取时的标注成本，同时也为评估和比较不同提取模型的性能提供了统一的标准，促进了该领域研究的进展。

衍生相关工作

基于DBpediaRelations-PT数据集，研究者们开展了一系列相关工作，如开发新的关系提取算法、构建更复杂的语义理解模型等。这些衍生工作进一步扩展了该数据集的应用范围，并推动了自然语言处理领域在葡萄牙语义关系提取方面的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集