five

DBpediaRelations-PT

收藏
github2022-12-02 更新2024-05-31 收录
下载链接:
https://github.com/sunilitggu/Annotated-Semantic-Relationships-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个葡萄牙语句子集合,表达DBPedia中实体对之间的语义关系。这些句子通过远程监督收集,并经过人工修订。

A collection of Portuguese sentences expressing semantic relationships between entity pairs in DBPedia. These sentences were collected through distant supervision and have been manually revised.
创建时间:
2017-02-27
原始信息汇总

数据集概述

传统信息抽取

  1. DBpediaRelations-PT

    • 数据集: DBpediaRelations-PT-0.2.txt.bz2
    • 引用: Exploring DBpedia and Wikipedia for Portuguese Semantic Relationship Extraction
    • 描述: 葡萄牙语句子集合,表达DBPedia中实体对之间的语义关系,通过远程监督收集并手动修订。
  2. AImed

    • 数据集: aimed.tar.gz
    • 引用: Subsequence Kernels for Relation Extraction
    • 描述: 包含225篇Medline摘要,其中200篇描述人类蛋白质间的相互作用,其余25篇不涉及任何相互作用。包含4084个蛋白质参考和约1000个标记的相互作用。
  3. SemEval

    • 数据集: SemEval2010_task8_all_data.tar.gz
    • 引用: SemEval-2010 Task 8: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
    • 描述: 多路分类任务,每个示例必须从完整的十个关系集中选择标签,名词到参数槽的映射不预先提供。提供10,717个标记示例。
  4. ReRelEM

    • 数据集: ReRelEM.tar.gz
    • 引用: Relation detection between named entities: report of a shared task
    • 描述: 首个葡萄牙语评估竞赛,目标是在连续文本中检测和分类命名实体间的关系。使用四重关系分类:身份、包含、位于和其他。
  5. Wikipedia

    • 数据集: wikipedia_datav1.0.tar.gz
    • 引用: Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text
    • 描述: 从在线百科全书Wikipedia中抽样1127个段落,标记了4701个关系实例。包含大量人-人关系,以及人与组织之间的链接和传记事实。
  6. Web

    • 数据集: hlt-naacl08-data.txt
    • 引用: Learning to Extract Relations from the Web using Minimal Supervision
    • 描述: 从网络获取的企业收购对和人物出生地对。企业收购测试集有995个实例,其中156个为正例。人物出生地测试集有601个实例,其中45个为正例。
  7. BioNLP Shared Task

    • 数据集: BioNLP.tar.gz
    • 引用: Overview of BioNLP Shared Task 2011
    • 描述: 涉及识别两个二元部分关系:PROTEIN-COMPONENT和SUBUNITCOMPLEX。任务数据包括新的GE数据注释,扩展了先前引入的资源。
  8. ADE-V2

    • 数据集: ADE-Corpus-V2.zip
    • 引用: Development of a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports
    • 描述: 生成系统注释的语料库,支持从医学案例报告中自动提取药物相关不良反应的方法的开发和验证。文档系统地进行多轮双注释,以确保一致的注释。

开放信息抽取

  1. ReVerb

    • 数据集: reverb_emnlp2011_data.tar.gz
    • 引用: Identifying Relations for Open Information Extraction
    • 描述: 从Yahoo的随机链接服务中抽样的500个句子。
  2. ClausIE

    • 数据集: ClausIE-datasets.tar.gz
    • 引用: ClausIE: Clause-Based Open Information Extraction
    • 描述: 包含三个不同的数据集:Reverb数据集,Wikipedia页面上的200个随机句子,以及纽约时报收集的200个随机句子。
  3. Effectiveness and Efficiency of Open Relation Extraction

    • 数据集: emnlp13_ualberta_experiments_v2.zip
    • 引用: Effectiveness and Efficiency of Open Relation Extraction
    • 描述: 包含WEB-500、NYT-500和PENN-100三个数据集,分别用于TextRunner实验、纽约时报语料库和Penn Treebank的评估。
  4. Extracting Relation descriptors with Conditional Random Fields

    • 数据集: DataSet-IJCNLP2011.tar.gz
    • 引用: Extracting Relation descriptors with Conditional Random Fields
    • 描述: 包含纽约时报数据集和Wikipedia数据集,用于提取关系描述符。纽约时报数据集包含150篇商业文章,Wikipedia数据集用于提取人-人关系。
搜集汇总
数据集介绍
main_image_url
构建方式
DBpediaRelations-PT数据集的构建基于远程监督方法,从DBpedia中提取了表达语义关系的葡萄牙语句子。这些句子经过人工修订,确保了数据的准确性和可靠性。通过这种方式,数据集不仅捕捉了丰富的语义关系,还保证了数据的多样性和代表性。
特点
DBpediaRelations-PT数据集的特点在于其专注于葡萄牙语语义关系的提取,涵盖了从DBpedia中提取的多种实体对之间的语义关系。数据集的句子经过人工修订,确保了高质量的关系标注。此外,数据集的多样性和广泛性使其成为研究葡萄牙语自然语言处理任务的宝贵资源。
使用方法
DBpediaRelations-PT数据集可用于训练和评估语义关系提取模型。研究人员可以通过加载数据集文件,使用其中的句子和标注信息进行模型训练。此外,数据集还可用于跨语言语义关系提取的研究,通过与其它语言的语义关系数据集进行对比分析,探索语言间的共性和差异。
背景与挑战
背景概述
DBpediaRelations-PT数据集是一个专注于葡萄牙语语义关系抽取的标注数据集,由研究人员通过远程监督方法从DBpedia中提取句子,并经过人工修订。该数据集的创建旨在支持葡萄牙语自然语言处理领域的研究,特别是语义关系抽取任务。其核心研究问题在于如何从非结构化文本中自动识别实体之间的语义关系,这对于知识图谱构建、信息检索等应用具有重要意义。该数据集的研究成果已在相关领域的学术论文中发表,进一步推动了葡萄牙语语义分析技术的发展。
当前挑战
DBpediaRelations-PT数据集面临的挑战主要体现在两个方面。首先,语义关系抽取任务本身具有较高的复杂性,尤其是在多语言环境下,葡萄牙语的语法结构和语义表达方式增加了模型训练的难度。其次,数据集的构建过程中,远程监督方法虽然能够快速生成大量标注数据,但也引入了噪声和不一致性,需要人工修订以确保数据质量。此外,葡萄牙语资源的稀缺性也限制了数据集的扩展和应用范围,进一步增加了研究的挑战性。
常用场景
经典使用场景
DBpediaRelations-PT数据集在语义关系抽取任务中具有经典应用场景。该数据集通过远程监督方法从DBpedia中提取了葡萄牙语表达的语义关系句子,并经过人工修订,确保了数据的准确性和可靠性。研究人员可以利用该数据集进行关系抽取模型的训练和评估,尤其是在处理葡萄牙语文本时,能够有效提升模型对复杂语义关系的理解能力。
实际应用
在实际应用中,DBpediaRelations-PT数据集被广泛用于构建知识图谱和智能问答系统。通过从文本中提取实体间的语义关系,该数据集能够帮助构建更加丰富和准确的知识库,从而提升问答系统的性能。此外,该数据集还可用于跨语言信息检索,支持多语言环境下的信息整合与分析。
衍生相关工作
DBpediaRelations-PT数据集衍生了一系列经典研究工作,特别是在多语言语义关系抽取领域。基于该数据集的研究成果包括改进的关系抽取算法、跨语言信息抽取模型以及知识图谱构建方法。这些工作不仅推动了葡萄牙语自然语言处理的发展,也为其他语言的语义关系研究提供了借鉴和参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作