five

DBpediaRelations-PT

收藏
github2018-02-17 更新2024-05-31 收录
下载链接:
https://github.com/xgeric/Annotated-Semantic-Relationships-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含葡萄牙语句子的集合,这些句子表达了从DBPedia提取的实体对之间的语义关系。这些句子通过远监督收集,并随后进行了人工修订。

A collection of Portuguese sentences that express semantic relationships between entity pairs extracted from DBPedia. These sentences were collected through distant supervision and subsequently revised manually.
创建时间:
2018-02-16
原始信息汇总

数据集概述

传统信息提取(Traditional Information Extraction)

  1. DBpediaRelations-PT

  2. AImed

  3. SemEval 2007

  4. SemEval 2010

  5. ReRelEM

  6. Wikipedia

  7. Web

  8. BioNLP Shared Task

  9. ADE-V2

开放信息提取(Open Information Extraction)

  1. ReVerb

  2. ClausIE

  3. Effectiveness and Efficiency of Open Relation Extraction

  4. Extracting Relation descriptors with Conditional Random Fields

远程监督(Distantly Supervised)

  1. NYT dataset

  2. Googles relation-extraction-corpus

搜集汇总
数据集介绍
main_image_url
构建方式
DBpediaRelations-PT数据集的构建采用远程监督的方法,从DBPedia中提取实体对之间的语义关系,并通过人工审核的方式对收集到的句子进行筛选和修订,确保了数据集的质量和准确性。
特点
该数据集以葡萄牙语文本为主,包含了一系列表达实体对之间语义关系的句子。其特点在于结合了远程监督与人工审核,既保证了数据量的充足,也确保了标注的精确性。此外,数据集覆盖了预定的关系类型,适用于监督模型的训练。
使用方法
使用DBpediaRelations-PT数据集时,用户首先需要解压数据文件,然后可以利用其中的句子对进行机器学习模型的训练,以实现语义关系提取的任务。数据集提供了清晰的标注格式,便于用户进行数据预处理和模型评估。
背景与挑战
背景概述
DBpediaRelations-PT数据集,源于对DBpedia葡萄牙语版本的深入挖掘,旨在通过远程监督的方式收集表达实体对之间语义关系的葡萄牙语句子。该数据集由研究人员于2013年构建,并以论文《Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction》为学术依据。它不仅丰富了葡萄牙语自然语言处理领域的关系抽取资源,而且对推动跨语言语义关系抽取研究具有重要的参考价值。
当前挑战
在构建过程中,DBpediaRelations-PT数据集面临的挑战主要在于远程监督带来的噪音数据问题,这要求研究人员必须对收集到的句子进行人工校正。此外,数据集中句子的多样性和复杂性对关系抽取算法提出了更高的要求,需要算法能够准确识别并抽取实体间的细粒度语义关系。
常用场景
经典使用场景
DBpediaRelations-PT数据集是葡萄牙语义关系提取任务的重要资源。其经典使用场景在于训练监督模型以识别并抽取文本中实体对之间的语义关系,进而为构建知识图谱或进行语义理解提供基础数据支撑。
解决学术问题
该数据集解决了语义关系抽取中的标注数据不足问题,通过远监督方法收集并人工修订了表达实体间关系的句子。这对于减少标注成本、加速模型训练及提升关系抽取准确率具有重要意义。同时,它为葡萄牙语的关系抽取研究提供了标准化数据,有助于推动该领域的发展。
衍生相关工作
基于DBpediaRelations-PT数据集,研究者们开展了一系列相关工作,包括但不限于改进关系抽取模型、探索跨语言信息抽取方法以及结合远程监督和规则方法来提升抽取效果等,推动了语义关系抽取领域的学术研究和技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作