DBpediaRelations-PT

github2017-07-03 更新2024-05-31 收录

下载链接：

https://github.com/fractalego/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一组葡萄牙语句子，表达DBPedia中实体对之间的语义关系。这些句子通过远监督收集，并手动修订。

A collection of Portuguese sentences expressing semantic relationships between entity pairs in DBPedia. These sentences were collected through distant supervision and manually revised.

创建时间：

2017-07-03

原始信息汇总

数据集概述

传统信息提取

DBpediaRelations-PT
- 描述: 包含从DBPedia提取的葡萄牙语句子，表达实体间的语义关系。通过远监督收集后手动修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，其余25篇不涉及任何相互作用。共有4084个蛋白质参考和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 小型数据集，包含7种关系类型和总共1,529个标记示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 作为多路分类任务，每个示例必须从完整的十个关系集中选择标签，且名词到论证槽的映射不预先提供。包含10,717个标记示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 首个葡萄牙语评估竞赛，旨在检测和分类运行文本中命名实体间的关系。使用四重关系分类：身份、包含、位于和其他。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从在线百科Wikipedia抽样1127个段落，标记了4701个关系实例。包含大量人-人关系，以及人与组织的关系和传记事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对，从网络获取。企业收购测试集有995个实例，其中156个为正例。个人出生地测试集有601个实例，其中45个为正例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两个二元部分关系：蛋白质组成部分和亚单位复合体。任务数据包括新的GE数据注释，扩展了先前引入的资源。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学案例报告中自动提取药物相关不良反应的系统注释语料库。文档经过多轮双注释，确保注释一致性。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取

ReVerb
- 描述: 从网络抽样的500个句子，用于开放信息提取。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个不同数据集：Reverb数据集、Wikipedia随机句子、纽约时报集合。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，用于评估开放关系提取的有效性和效率。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和Wikipedia两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远监督

NYT dataset
- 描述: 广泛使用的远监督关系提取数据集，通过将Freebase关系与纽约时报(NYT)语料库对齐生成。
- 引用: Modeling Relations and Their Mentions without Labeled Text

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建是通过从DBPedia中提取的实体对之间的语义关系句子，采用远程监督方法进行初步标注，随后进行了人工修订以确保标注质量。

特点

该数据集的特点在于，它包含了用葡萄牙语表达的语义关系句子，涵盖了预定的关系类型，且通过人工审核提升了标注的准确性。此外，它为葡萄牙语的关系抽取研究提供了一个有价值的数据资源。

使用方法

使用DBpediaRelations-PT数据集时，用户可以从提供的压缩文件中解压出数据，随后可以利用这些标注好的句子对监督模型进行训练，以实现语义关系抽取的任务。引用相关文献以了解更多使用细节和模型训练方法。

背景与挑战

背景概述

DBpediaRelations-PT数据集，创建于葡萄牙语语义关系提取的研究背景之下，由一组研究人员通过对DBPedia葡萄牙语版本的句子进行远程监督收集，并经过人工修订而成。该数据集的构建旨在探索DBpedia与Wikipedia在葡萄牙语义关系提取方面的应用。其研究成果被发表在《Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction》一文中，对葡萄牙语义关系提取领域产生了积极影响。

当前挑战

该数据集在构建过程中主要面临的挑战包括：如何通过远程监督技术有效地标注语义关系，以及如何在人工修订阶段确保标注质量的一致性。此外，所解决的领域问题，即葡萄牙语义关系提取，其挑战在于语言的复杂性和多义性，以及如何处理大量非结构化数据中的噪声和不确定性。

常用场景

经典使用场景

DBpediaRelations-PT数据集是一组葡萄牙语文本，旨在表达提取自DBPedia的实体对之间的语义关系。该数据集通过远程监督收集并经过人工修订，其经典使用场景主要在于训练监督模型进行语义关系提取任务，特别是在处理葡萄牙语的自然语言处理应用中。

衍生相关工作

基于DBpediaRelations-PT数据集，研究者可以进一步开展相关工作，如开发针对葡萄牙语的更高级的语义关系提取模型，或是扩展数据集以涵盖更多的语义关系类型，从而推动该领域的研究进展和技术发展。

数据集最近研究