DBpediaRelations-PT

github2017-07-10 更新2024-05-31 收录

下载链接：

https://github.com/ChuXiaokai/Annotated-Semantic-Relationships-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含葡萄牙语句子的集合，这些句子表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远程监督收集，并随后进行了人工修订。

A collection of Portuguese sentences that express semantic relationships between entity pairs extracted from DBPedia. These sentences were collected through distant supervision and subsequently manually revised.

创建时间：

2017-07-10

原始信息汇总

数据集概述

传统信息提取

DBpediaRelations-PT
- 描述: 葡萄牙语句子集合，表达实体间的语义关系，通过远程监督收集并人工修订。
- 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
AImed
- 描述: 包含225篇Medline摘要，其中200篇描述人类蛋白质间的相互作用，包含4084个蛋白质引用和约1000个标记的相互作用。
- 引用: Subsequence Kernels for Relation Extraction
SemEval 2007
- 描述: 包含7种关系类型，共1,529个标注示例的小型数据集。
- 引用: SemEval-2007 Task 04: Classification of Semantic Relations between Nominals
SemEval 2010
- 描述: 作为多路分类任务，需从10种关系中选择标签，共10,717个标注示例。
- 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
ReRelEM
- 描述: 葡萄牙语的首次评估竞赛，旨在检测和分类文本中命名实体间的关系。
- 引用: Relation detection between named entities: report of a shared task
Wikipedia
- 描述: 从维基百科中抽样的1127个段落，标注了4701个关系实例，包括人物与组织间的关系及个人事实。
- 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
Web
- 描述: 包含企业收购对和个人出生地对的数据集，分别有995和601个实例。
- 引用: Learning to Extract Relations from the Web using Minimal Supervision
BioNLP Shared Task
- 描述: 涉及识别两种二元部分关系：蛋白质成分和亚单位复合体。
- 引用: Overview of BioNLP Shared Task 2011
ADE-V2
- 描述: 旨在从医学案例报告中自动提取药物相关不良反应的系统标注语料库。
- 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports

开放信息提取

ReVerb
- 描述: 从网络随机抽样的500个句子。
- 引用: Identifying Relations for Open Information Extraction
ClausIE
- 描述: 包含三个数据集：Reverb数据集（500个句子）、维基百科随机句子（200个）和纽约时报句子（200个）。
- 引用: ClausIE: Clause-Based Open Information Extraction
Effectiveness and Efficiency of Open Relation Extraction
- 描述: 包含WEB-500、NYT-500和PENN-100三个数据集，用于评估开放关系提取的有效性和效率。
- 引用: Effectiveness and Efficiency of Open Relation Extraction
Extracting Relation descriptors with Conditional Random Fields
- 描述: 包含纽约时报和维基百科两个数据集，用于提取关系描述符。
- 引用: Extracting Relation descriptors with Conditional Random Fields

远程监督

NYT dataset
- 描述: 通过将Freebase关系与纽约时报语料库对齐生成的数据集，用于远程监督关系提取任务。
- 引用: Modeling Relations and Their Mentions without Labeled Text

搜集汇总

数据集介绍

构建方式

DBpediaRelations-PT数据集的构建，是通过从DBpedia中提取实体对之间的语义关系，并利用远程监督方法进行句子收集，随后这些句子经过人工修订以提升标注质量。该数据集的构建目的在于为葡萄牙语语义关系提取任务提供训练资源。

特点

DBpediaRelations-PT数据集的特点在于，它包含了葡萄牙语表达的语义关系句子，这些句子描述了从DBpedia中提取的实体对之间的关系。数据集采用远程监督方法进行构建，并经过人工审查，使得标注数据具有较高的质量。此外，该数据集为葡萄牙语语义关系提取研究提供了宝贵的资源。

使用方法

使用DBpediaRelations-PT数据集时，用户可以从提供的压缩文件中解压出文本文件，文件中包含了用葡萄牙语书写的句子及其表达的语义关系。用户可以利用这些数据进行监督学习模型的训练，以进行语义关系提取任务。同时，使用前需参照相关文献了解数据集的具体构建方式和使用条款。

背景与挑战

背景概述

DBpediaRelations-PT数据集，旨在为葡萄牙语义关系提取任务提供训练资源。该数据集的创建时间为未明确标注，由研究人员通过远监督方法从DBPedia中提取句子，并经过人工修订。该数据集的发布，对于葡萄牙语语义关系提取领域具有重要意义，填补了相关研究的空白，并为后续研究提供了宝贵的语料支持。

当前挑战

DBpediaRelations-PT数据集在构建过程中遇到的挑战主要包括：1)远监督方法可能导致标注错误，需要人工修订来确保数据质量；2)葡萄牙语资源相对匮乏，标注过程可能受限于标注者的语言能力和专业知识。在所解决的领域问题上，该数据集面临的挑战是如何准确提取和识别葡萄牙语中的语义关系，这对于提升葡萄牙语自然语言处理技术至关重要。

常用场景

经典使用场景

DBpediaRelations-PT数据集作为葡萄牙语义关系提取任务的基础资源，其经典使用场景在于为监督模型训练提供标注数据。这些数据通过远监督方式收集自DBPedia，并经过人工修订，为研究者提供了标注精确的训练实例，从而使得模型能够有效学习实体间的语义关系。

实际应用

在实际应用中，DBpediaRelations-PT数据集可用于构建知识图谱，支持自然语言理解、信息检索以及问答系统等领域。其标注的语义关系有助于提升系统的语义理解能力，进而提高应用的智能化水平。

衍生相关工作

基于DBpediaRelations-PT，研究者可以进一步开展相关工作，如开发更为精确的语义关系提取模型、构建多语言语义关系映射等。此外，该数据集也促进了葡萄牙语自然语言处理技术的进步，为相关领域的研究提供了数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集