DBpediaRelations-PT

github2020-01-24 更新2024-05-31 收录

下载链接：

https://github.com/shanzhenren/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个葡萄牙语句子集合，表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远监督收集，并进行了人工修订。

A collection of Portuguese sentences expressing semantic relationships between entity pairs extracted from DBPedia. These sentences were collected through distant supervision and have been manually revised.

创建时间：

2017-09-21

原始信息汇总

数据集概述

传统信息提取

DBpediaRelations-PT
- 描述: 包含从DBPedia提取的葡萄牙语句子，表达实体间的语义关系。通过远监督收集后手动修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，其余25篇不涉及任何相互作用。共有4084个蛋白质参考和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 小型数据集，包含7种关系类型和总共1,529个标注示例。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 作为多路分类任务，每个示例必须从完整的十种关系中选择标签，且名词到参数槽的映射未预先提供。包含10,717个标注示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 首个葡萄牙语评估竞赛，旨在检测和分类文本中命名实体间的关系。使用四种关系分类：身份、包含、位于和其他。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从在线百科Wikipedia中抽样1127个段落，标注了4701个关系实例。包含大量人-人关系，以及人与组织的关系和传记事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含从网络获取的企业收购对和个人出生地对。企业收购测试集有995个实例，其中156个为正例。个人出生地测试集有601个实例，其中45个为正例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两个二元部分关系：蛋白质-组件和亚单元复合体。数据扩展了先前引入的资源。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学案例报告中自动提取药物相关不良反应的系统标注语料库。通过多轮双标注确保一致性，并生成代表性共识标注。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取

ReVerb
- 描述: 从网络抽样的500个句子，用于开放信息提取。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个不同数据集：Reverb数据集（500个句子）、Wikipedia随机句子（200个）和纽约时报集合（200个句子）。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，用于评估开放关系提取的有效性和效率。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和Wikipedia两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远监督

NYT dataset
- 描述: 通过将Freebase关系与纽约时报(NYT)语料库对齐生成的数据集，用于远监督关系提取任务。
- 引用: Modeling Relations and Their Mentions without Labeled Text

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建采取远程监督的方式，首先从DBPedia中提取实体对之间的语义关系，然后通过人工审查进行校正。这种方法结合了自动化处理与人工审核的优点，旨在确保数据集的质量与准确性。

使用方法

使用DBpediaRelations-PT数据集时，用户需要先下载数据集文件，然后可以根据数据集中的句子及其标注的关系类型进行模型训练或评估。数据集以文本格式存储，易于集成到现有的自然语言处理框架中。

背景与挑战

背景概述

DBpediaRelations-PT数据集，创建于葡萄牙语义关系提取的研究背景之下，由研究人员通过远监督方法收集自DBPedia的葡萄牙语文本句子构成，其中表达了实体对之间的语义关系。该数据集的构建旨在探索DBpedia和Wikipedia在葡萄牙语义关系提取中的应用，对于葡萄牙语自然语言处理领域具有重要的研究价值，并在相关研究中产生了显著影响。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括：如何通过远监督技术有效标注语义关系，以及如何确保标注质量，通过人工复审进行质量控制。在研究领域问题方面，DBpediaRelations-PT数据集面临的挑战是如何精确提取并分类实体间的语义关系，这对于提升关系提取模型的性能至关重要。

常用场景

经典使用场景

DBpediaRelations-PT数据集为葡萄牙语语义关系提取任务提供了丰富的句子资源，其经典使用场景在于训练监督模型以识别并提取DBpedia中实体对之间的语义关系。该数据集通过远程监督方法收集并经过人工修订，确保了标注质量，是葡萄牙语自然语言处理领域的重要资源。

解决学术问题

该数据集解决了葡萄牙语语义关系提取中的标注数据稀缺问题，为学术研究提供了标准化的语义关系标注样例，有助于提升关系提取模型的准确度和泛化能力，对推动葡萄牙语信息抽取和知识图谱构建等领域的学术研究具有重要的意义和影响。

实际应用

在实际应用中，DBpediaRelations-PT数据集可用于改善葡萄牙语问答系统、搜索引擎、推荐系统等，通过准确提取实体间的关系，增强系统的语义理解和信息检索能力，进而提升用户体验。

数据集最近研究