COMBO
收藏arXiv2023-02-08 更新2024-06-21 收录
下载链接:
https://github.com/jeffchy/COMBO/tree/main
下载链接
链接失效反馈官方服务:
资源简介:
COMBO数据集由上海科技大学创建,是一个全面的开放知识图谱规范化基准。该数据集包含18000个三元组,不仅提供了实体级名词短语的金标准规范化,还额外提供了关系短语和本体级名词短语的金标准规范化。数据集的构建基于大规模本体知识图谱Wikidata,通过远程监督和人工修订确保数据质量。COMBO数据集的应用领域广泛,旨在解决开放知识图谱中的冗余和歧义问题,提高查询效率和准确性。
The COMBO dataset, created by ShanghaiTech University, is a comprehensive benchmark for open knowledge graph normalization. It contains 18,000 triples, and provides gold-standard normalization not only for entity-level noun phrases, but also for relation phrases and ontology-level noun phrases. Built upon Wikidata, a large-scale ontology knowledge graph, the dataset ensures data quality through distant supervision and manual revision. The COMBO dataset has a wide range of application scenarios, and is designed to address the redundancy and ambiguity issues in open knowledge graphs, thereby improving query efficiency and accuracy.
提供机构:
上海科技大学
创建时间:
2023-02-08
搜集汇总
数据集介绍

构建方式
COMBO数据集的构建基于大规模本体知识图谱Wikidata、开放信息抽取系统以及人工修订。首先,从Wiki20数据集中获取源句子和实体级NP规范化的黄金标注。接着,使用Stanford OpenIE系统从Wiki20句子中提取关系短语,并通过人工检查和修订来确保其准确性。最后,通过查询Wikidata获取每个实体的类别,从而获得本体级NP规范化的黄金标注。整个数据集包含18K个三元组及其源句子,并提供了黄金NPC-E、RPC和NPC-O标注。
特点
COMBO数据集的特点在于其全面性,它不仅提供了实体级NP规范化的黄金标注,还提供了关系短语规范化和本体级NP规范化的黄金标注。此外,COMBO数据集还包含了源句子,这为理解和消歧NP和RP提供了额外的上下文信息。与其他开放KG规范化数据集相比,COMBO数据集的平均三元组长度更长,唯一的NP数量也更多,这表明了NP和RP表面形式的多样性。
使用方法
COMBO数据集可用于开放KG规范化任务的评估,包括实体级和本体级NP规范化以及关系短语规范化。数据集被分为开发集(20%)和测试集(80%),以便于模型评估。评估指标包括宏观指标、微观指标和配对指标,以比较黄金和预测的NPC-E聚类分配。对于RPC,由于黄金RP聚类较大,因此仅使用微观指标和配对指标进行评估。对于NPC-O,由于黄金聚类分配是重叠的,因此提出了一种基于Jaccard指数的评估指标。
背景与挑战
背景概述
开放知识图谱(Open Knowledge Graph,Open KG)是自然语言处理领域的一个重要研究方向,它从大量的原始文本中提取出(主体,关系,客体)三元组,用于构建知识图谱。然而,开放知识图谱中的主体和客体名词短语以及关系存在严重的冗余和歧义,需要进行规范化处理。现有的开放知识图谱规范化数据集主要提供实体层面的规范化,缺乏对关系短语和本体层面的规范化。为了解决这一问题,COMBO数据集应运而生,它是一个完整的开放知识图谱规范化基准数据集,提供了实体层面的规范化、关系短语规范化和本体层面的规范化。该数据集的构建基于大型本体知识图谱Wikidata、OpenIE系统和Wiki20m关系抽取数据集,并经过人工修订以保证数据质量。COMBO数据集的发布为开放知识图谱规范化研究提供了重要的基准数据。
当前挑战
开放知识图谱规范化面临的主要挑战包括:1)开放知识图谱中的主体和客体名词短语以及关系存在严重的冗余和歧义,需要进行规范化处理;2)现有的开放知识图谱规范化数据集主要提供实体层面的规范化,缺乏对关系短语和本体层面的规范化;3)如何有效地利用预训练语言模型进行开放知识图谱规范化,以提高规范化效果。
常用场景
经典使用场景
COMBO数据集主要用于开放知识图谱(Open KG)的规范化研究。开放知识图谱由数百万条原始文本中提取的(主体,关系,客体)三元组组成。然而,开放知识图谱中的主体和客体名词短语以及关系短语存在严重的冗余和歧义,需要进行规范化。现有的开放知识图谱规范化数据集仅提供实体级别的规范化结果。COMBO数据集提供了完整的开放知识图谱规范化基准,包括实体级别的名词短语规范化、关系短语的规范化以及名词短语的本体级别规范化。此外,COMBO数据集还提供了三元组提取的源句子。
解决学术问题
COMBO数据集解决了开放知识图谱规范化中的一些常见学术研究问题,例如实体级别的名词短语规范化、关系短语的规范化和名词短语的本体级别规范化。实体级别的名词短语规范化旨在将指向同一实体的名词短语聚类在一起,关系短语的规范化旨在将表示相同关系的短语聚类在一起,名词短语的本体级别规范化旨在将具有相同类型的名词短语聚类在一起。COMBO数据集为开放知识图谱规范化研究提供了新的研究视角和实验平台,有助于推动该领域的研究进展。
衍生相关工作
COMBO数据集的提出和发布,推动了开放知识图谱规范化研究的进一步发展。基于COMBO数据集,研究者们提出了多种新的开放知识图谱规范化方法,例如基于预训练语言模型的方法、基于图嵌入的方法和基于变分自动编码器的方法等。这些方法在COMBO数据集上取得了显著的性能提升,为开放知识图谱规范化研究提供了新的思路和方法。此外,COMBO数据集还被用于评估和比较不同的预训练语言模型,例如BERT、RoBERTa和ERNIE等。这些研究表明,预训练语言模型在开放知识图谱规范化任务中具有重要的作用。
以上内容由遇见数据集搜集并总结生成



