five

DBpediaRelations-PT

收藏
github2017-07-03 更新2024-05-31 收录
下载链接:
https://github.com/fractalego/Annotated-Semantic-Relationships-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一组葡萄牙语句子,表达DBPedia中实体对之间的语义关系。这些句子通过远监督收集,并手动修订。

A collection of Portuguese sentences expressing semantic relationships between entity pairs in DBPedia. These sentences were collected through distant supervision and manually revised.
创建时间:
2017-07-03
原始信息汇总

数据集概述

传统信息提取

  1. DBpediaRelations-PT

  2. AImed

    • 描述: 包含225篇Medline摘要,其中200篇描述人类蛋白质间的相互作用,其余25篇不涉及任何相互作用。共有4084个蛋白质参考和约1000个标记的相互作用。
    • 引用: Subsequence Kernels for Relation Extraction
  3. SemEval 2007

  4. SemEval 2010

  5. ReRelEM

  6. Wikipedia

  7. Web

  8. BioNLP Shared Task

    • 描述: 涉及识别两个二元部分关系:蛋白质组成部分和亚单位复合体。任务数据包括新的GE数据注释,扩展了先前引入的资源。
    • 引用: Overview of BioNLP Shared Task 2011
  9. ADE-V2

开放信息提取

  1. ReVerb

  2. ClausIE

  3. Effectiveness and Efficiency of Open Relation Extraction

  4. Extracting Relation descriptors with Conditional Random Fields

远监督

  1. NYT dataset
搜集汇总
数据集介绍
main_image_url
构建方式
DBpediaRelations-PT数据集的构建是通过从DBPedia中提取的实体对之间的语义关系句子,采用远程监督方法进行初步标注,随后进行了人工修订以确保标注质量。
特点
该数据集的特点在于,它包含了用葡萄牙语表达的语义关系句子,涵盖了预定的关系类型,且通过人工审核提升了标注的准确性。此外,它为葡萄牙语的关系抽取研究提供了一个有价值的数据资源。
使用方法
使用DBpediaRelations-PT数据集时,用户可以从提供的压缩文件中解压出数据,随后可以利用这些标注好的句子对监督模型进行训练,以实现语义关系抽取的任务。引用相关文献以了解更多使用细节和模型训练方法。
背景与挑战
背景概述
DBpediaRelations-PT数据集,创建于葡萄牙语语义关系提取的研究背景之下,由一组研究人员通过对DBPedia葡萄牙语版本的句子进行远程监督收集,并经过人工修订而成。该数据集的构建旨在探索DBpedia与Wikipedia在葡萄牙语义关系提取方面的应用。其研究成果被发表在《Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction》一文中,对葡萄牙语义关系提取领域产生了积极影响。
当前挑战
该数据集在构建过程中主要面临的挑战包括:如何通过远程监督技术有效地标注语义关系,以及如何在人工修订阶段确保标注质量的一致性。此外,所解决的领域问题,即葡萄牙语义关系提取,其挑战在于语言的复杂性和多义性,以及如何处理大量非结构化数据中的噪声和不确定性。
常用场景
经典使用场景
DBpediaRelations-PT数据集是一组葡萄牙语文本,旨在表达提取自DBPedia的实体对之间的语义关系。该数据集通过远程监督收集并经过人工修订,其经典使用场景主要在于训练监督模型进行语义关系提取任务,特别是在处理葡萄牙语的自然语言处理应用中。
衍生相关工作
基于DBpediaRelations-PT数据集,研究者可以进一步开展相关工作,如开发针对葡萄牙语的更高级的语义关系提取模型,或是扩展数据集以涵盖更多的语义关系类型,从而推动该领域的研究进展和技术发展。
数据集最近研究
最新研究方向
DBpediaRelations-PT数据集作为葡萄牙语义关系提取的研究资源,近期研究集中于深度学习模型在语义关系提取任务中的应用,尤其是利用 distant supervision 技术降低人工标注成本。该数据集通过 distant supervision 方法收集并经过人工修订,为研究提供了丰富的葡萄牙语文本资源。前沿研究方向包括探索跨语言信息提取的可行性,以及结合知识图谱进行语义关系的预测和验证。这些研究对于提升跨语言自然语言处理技术,以及丰富多语言知识图谱具有重要的实践意义和理论价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作