DBpediaRelations-PT

github2020-10-25 更新2024-05-31 收录

下载链接：

https://github.com/twjiang/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含葡萄牙语句子的集合，这些句子表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远监督收集，并进行了人工修订。

A collection of Portuguese sentences that express semantic relationships between entity pairs extracted from DBPedia. These sentences were collected through distant supervision and have been manually revised.

创建时间：

2020-02-29

原始信息汇总

数据集概述

传统信息提取（Traditional Information Extraction）

DBpediaRelations-PT
- 描述: 葡萄牙语句子集合，表达实体间的语义关系，源自DBPedia，通过远程监督收集并人工修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，其余25篇不涉及任何相互作用。包含4084个蛋白质引用和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 小型数据集，包含7种关系类型和总计1,529个标记示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 作为多路分类任务，标签需从10种关系中选择，未预先提供名词到论证槽的映射。包含10,717个标记示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 首个葡萄牙语评估竞赛，旨在检测和分类文本中命名实体间的关系。使用四种关系分类：身份、包含、位于和其他。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从271篇维基百科文章中抽样1127个段落，标记了4701个关系实例，包括人-人关系、人-组织关系及传记事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对的测试集，分别有995和601个实例，其中156和45个为正例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两种二元部分关系：蛋白质成分和亚单位复合体。数据集扩展了先前引入的资源。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学病例报告中自动提取药物相关不良反应的系统标记语料库。文档经过多轮双重标记，以确保一致性。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports
KBP-37
- 描述: 修订自MIML-RE标记数据集，使用2010和2013 KBP官方文档集合及2013年7月维基百科转储作为文本语料库，共标记33811个句子。
- 引用: Relation Classification via Recurrent Neural Network

开放信息提取（Open Information Extraction）

ReVerb
- 描述: 从网络抽样的500个句子，使用Yahoo的随机链接服务获取。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个不同数据集：Reverb数据集（500个句子）、维基百科随机句子（200个）和纽约时报集合（200个）。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，分别用于评估不同文本类型的关系提取效果。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和维基百科两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远程监督（Distant Supervision）

NYT dataset
- 描述: 通过将Freebase关系与纽约时报语料库对齐生成，使用2005-2006年的句子作为训练集，2007年的句子作为测试集。
- 引用: Modeling Relations and Their Mentions without Labeled Text
Googles relation-extraction-corpus
- 描述: 用于关系提取的语料库，详细信息可参考此链接。
- 引用: https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建基于DBpedia中的语义关系提取，采用了远程监督技术进行初步标注。具体而言，研究人员从DBpedia中提取了表达实体间语义关系的葡萄牙语句子，并通过远程监督方法对这些句子进行了初步标注。随后，这些标注结果经过人工审查和修正，以确保数据的高质量和准确性。这种结合自动化与人工干预的构建方式，既提高了数据集的规模，又保证了标注的可靠性。

特点

DBpediaRelations-PT数据集的特点在于其专注于葡萄牙语语义关系的提取，涵盖了丰富的实体对及其语义关系。数据集中的句子经过远程监督和人工修正，确保了标注的准确性和一致性。此外，该数据集为研究葡萄牙语自然语言处理任务提供了宝贵的资源，尤其是在语义关系分类和实体关系抽取领域。其多样化的语义关系类型和高质量的标注使其成为训练和评估监督学习模型的理想选择。

使用方法

DBpediaRelations-PT数据集主要用于训练和评估语义关系提取模型。研究人员可以通过加载数据集中的标注句子，构建监督学习模型来识别实体间的语义关系。该数据集适用于多种自然语言处理任务，如关系分类、实体链接和知识图谱构建。使用该数据集时，建议先对数据进行预处理，如分词和实体识别，然后将其输入到机器学习或深度学习模型中进行训练和测试。此外，数据集的分组结构（如传统信息提取和开放信息提取）也为不同研究需求提供了灵活的选择。

背景与挑战

背景概述

DBpediaRelations-PT数据集是专为葡萄牙语语义关系抽取任务而构建的，其核心研究问题在于从DBpedia中提取的实体对之间的语义关系。该数据集由研究人员通过远程监督技术收集句子，并经过人工修订，以确保标注的准确性。其创建时间可追溯至2013年，相关研究论文《Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction》详细描述了其构建过程。该数据集在自然语言处理领域，尤其是多语言语义关系抽取任务中，具有重要的影响力，为葡萄牙语文本的语义分析提供了宝贵资源。

当前挑战

DBpediaRelations-PT数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，语义关系抽取任务本身具有较高的复杂性，尤其是在多语言环境下，如何准确识别和分类实体间的语义关系仍是一个难题。其次，在数据集构建过程中，远程监督技术的应用虽然提高了数据收集的效率，但也引入了噪声数据，导致部分标注不准确。此外，人工修订的过程虽然提升了数据质量，但也增加了时间和人力成本，限制了数据集的规模扩展。这些挑战共同制约了该数据集在更广泛场景中的应用。

常用场景

经典使用场景

DBpediaRelations-PT数据集在语义关系抽取任务中具有重要应用，尤其是在葡萄牙语文本的语义关系识别领域。该数据集通过远程监督技术从DBpedia中提取句子，并经过人工修订，确保了数据的高质量。研究者通常利用该数据集训练监督学习模型，以识别和分类实体之间的语义关系，如人物与组织之间的关系、地理位置关系等。

解决学术问题

DBpediaRelations-PT数据集解决了语义关系抽取中的关键问题，特别是在多语言环境下如何准确识别实体间的关系。通过提供高质量的标注数据，该数据集帮助研究者克服了传统信息抽取方法在数据稀疏性和标注成本上的限制。其意义在于推动了葡萄牙语自然语言处理领域的发展，并为跨语言语义关系研究提供了重要参考。

衍生相关工作

基于DBpediaRelations-PT数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了基于深度学习的语义关系抽取模型，显著提升了关系分类的准确率。此外，该数据集还被用于评估不同远程监督技术的效果，推动了信息抽取领域的方法创新。相关研究不仅丰富了语义关系抽取的理论体系，也为多语言自然语言处理提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集