five

relbert/conceptnet

收藏
Hugging Face2023-03-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/relbert/conceptnet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是ConceptNet的一个高置信度子集,专门用于链接预测任务。数据集中移除了NotCapableOf和NotDesires关系,仅保留了正面关系。数据集分为训练集、验证集和测试集,分别对应原始数据集中的dev1、dev2和测试集。数据集中包含28种唯一的关系类型,每种关系类型在训练集、验证集和测试集中的实例数量也有所不同。数据集的结构包括关系、头实体和尾实体。

This dataset is a high-confidence subset of ConceptNet, specifically designed for link prediction tasks. The relations NotCapableOf and NotDesires have been removed, and only positive relations are retained. The dataset is split into training, validation, and test sets, which correspond to dev1, dev2, and the test set from the original dataset respectively. This dataset contains 28 unique relation types, and the number of instances for each relation type varies across the training, validation, and test sets. The structure of the dataset consists of relations, head entities, and tail entities.
提供机构:
relbert
原始信息汇总

数据集概述

数据集名称

  • 名称: relbert/conceptnet
  • 别名: High Confidence Subset of ConceptNet for link prediction

数据集描述

  • 来源: RelBERT
  • 论文: Commonsense Knowledge Base Completion
  • 处理: 移除了NotCapableOfNotDesires以保留正向关系。
  • 数据划分: 原始测试集作为测试集,dev1作为训练集,dev2作为验证集。

数据集统计

  • 实例数量:

    训练 验证 测试
    对数 583082 1184 1187
    关系类型数 28 20 19
  • 各关系类型对数:

    关系类型 训练对数 验证对数 测试对数
    AtLocation 69838 230 250
    CapableOf 71840 124 144
    Causes 34732 52 45
    CausesDesire 9616 15 5
    CreatedBy 534 1 2
    DefinedAs 11048 2 1
    DesireOf 28 0 0
    Desires 8960 20 8
    HasA 19234 43 41
    HasFirstSubevent 7350 2 1
    HasLastSubevent 5916 5 0
    HasPainCharacter 2 0 0
    HasPainIntensity 2 0 0
    HasPrerequisite 47298 116 109
    HasProperty 36610 63 70
    HasSubevent 52468 82 83
    InheritsFrom 112 0 0
    InstanceOf 138 0 0
    IsA 71034 197 211
    LocatedNear 6 0 0
    LocationOfAction 6 0 0
    MadeOf 1518 10 14
    MotivatedByGoal 23668 17 8
    PartOf 5402 19 22
    ReceivesAction 20656 15 11
    RelatedTo 178 0 1
    SymbolOf 328 2 0
    UsedFor 84560 169 161

数据集结构

  • 示例: shell { "relation": "IsA", "head": "baseball", "tail": "sport" }
搜集汇总
数据集介绍
main_image_url
构建方式
在知识图谱构建领域,relbert/conceptnet数据集源自ConceptNet知识库的高置信度子集,专为链接预测任务而设计。该数据集通过精心筛选,剔除了NotCapableOf和NotDesires等否定性关系,仅保留积极语义关联,从而强化了常识推理的正面逻辑基础。其构建过程严格遵循原始研究划分,将原测试集作为测试集,dev1作为训练集,dev2作为验证集,确保了数据分割的科学性与一致性,最终形成包含28类关系、逾58万对实体关系的结构化知识表示。
使用方法
在自然语言处理与知识图谱补全研究中,该数据集可直接用于关系分类、链接预测等任务。研究者可通过加载标准化的训练、验证与测试分割,利用头实体与尾实体的文本表示,结合预定义的关系类型标签,训练深度神经网络或图嵌入模型。典型应用包括基于TransE、ComplEx等嵌入方法的常识推理,或作为下游任务如问答系统、语义搜索的增强知识源。数据以JSON格式组织,支持灵活读取与批量处理,其清晰的结构设计使得模型评估指标如准确率、召回率能够便捷计算,推动常识推理技术的迭代发展。
背景与挑战
背景概述
在人工智能与自然语言处理领域,常识知识的表示与推理一直是核心研究议题之一。ConceptNet作为一个广泛使用的常识知识图谱,由麻省理工学院媒体实验室于2000年代初发起构建,旨在捕捉人类日常概念间的语义关系。relbert/conceptnet数据集作为其高置信度子集,由Li等人于2016年通过论文《Commonsense Knowledge Base Completion》正式引入,聚焦于关系预测任务,旨在解决知识库补全中的稀疏性与噪声问题。该数据集通过筛选正例关系并优化分割策略,为链接预测模型提供了高质量基准,显著推动了常识推理在机器学习中的应用,成为评估模型语义理解能力的重要工具。
当前挑战
该数据集致力于解决常识知识库补全中的链接预测挑战,其核心在于从有限的关系实例中推断未观察到的概念间连接,这要求模型具备深层语义泛化能力,以应对关系类型的不平衡分布与长尾现象。在构建过程中,研究人员面临数据稀疏性与噪声的严峻考验,原始ConceptNet包含大量低置信度或负例关系,需通过精细过滤保留高质正例,同时确保训练、验证与测试集在关系类型上的代表性。此外,移除如'NotCapableOf'等负关系虽简化了任务,但也可能削弱模型对复杂否定语义的捕捉,这些因素共同构成了数据集在推动常识推理研究中的关键障碍。
常用场景
经典使用场景
在常识知识图谱领域,relbert/conceptnet数据集作为ConceptNet的高置信度子集,其经典使用场景聚焦于关系预测任务。该数据集通过筛选并保留28种正向语义关系,如'IsA'、'CapableOf'等,为模型提供了结构化常识知识。研究者常利用其丰富的实体对与关系三元组,训练神经网络模型以预测实体间潜在关联,从而评估模型对世界知识的理解与推理能力。这一场景在自然语言处理研究中,为探索常识推理的边界提供了标准化基准。
解决学术问题
该数据集有效应对了常识知识库补全中的核心学术挑战。传统方法难以自动推断实体间隐含的常识关系,而relbert/conceptnet通过提供高质量标注数据,支持模型学习复杂语义映射。其意义在于推动了知识表示学习的发展,使模型不仅能记忆事实,更能理解如'HasPrerequisite'(前提条件)或'Causes'(因果关系)等抽象逻辑关系。这一进展深刻影响了人工智能在模拟人类认知方面的研究路径。
实际应用
在实际应用层面,该数据集为智能对话系统与推荐引擎注入了常识推理能力。例如,在对话系统中,模型可依据'Desires'(欲望)关系推断用户意图;在教育技术领域,利用'HasSubevent'(子事件)关系构建知识导图。这些应用显著提升了人工智能服务的自然性与连贯性,使机器能在医疗辅助诊断或个性化内容生成等场景中,做出更贴合人类逻辑的决策。
数据集最近研究
最新研究方向
在常识知识图谱领域,relbert/conceptnet数据集作为ConceptNet的高置信度子集,正推动着知识表示学习的前沿探索。当前研究聚焦于利用该数据集优化关系预测模型,特别是在去除负面关系后,通过深度学习架构捕捉实体间复杂语义关联,以提升常识推理的准确性与泛化能力。随着大语言模型在认知智能任务中的广泛应用,该数据集为评估模型常识完备性提供了关键基准,促进了跨模态知识融合与可解释人工智能的发展,对构建更稳健的AI系统具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作