relbert/nell

Name: relbert/nell
Creator: relbert
Published: 2023-02-02 15:25:04
License: 暂无描述

Hugging Face2023-02-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/relbert/nell

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是NELL-ONE数据集，用于少样本链接预测。数据集包含5498个训练对、878个验证对和1352个测试对，涉及32种唯一关系类型。每种关系类型的实例数量在训练、验证和测试集中有所不同。此外，数据集还包含多种实体类型，如演员、机场、运动员等，每种实体类型在训练、验证和测试集中的头实体和尾实体数量也有所不同。

This dataset is the NELL-ONE dataset, designed for few-shot link prediction. It comprises 5,498 training pairs, 878 validation pairs, and 1,352 test pairs, covering 32 unique relation types. The number of instances for each relation type varies across the training, validation, and test sets. Additionally, the dataset contains multiple entity types such as actors, airports, athletes, etc., and the counts of head and tail entities for each entity type also differ among the training, validation, and test sets.

提供机构：

relbert

原始信息汇总

数据集概述

基本信息

名称: relbert/nell
语言: 英语
许可证: 其他
多语言性: 单语
大小: 小于1000条记录

数据集内容

类型: 用于一击关系学习的NELL数据集
用途: 用于一击链接预测
实例数量:
- 训练集: 5498对
- 验证集: 878对
- 测试集: 1352对
- 唯一关系类型数量:
  - 训练集: 32种
  - 验证集: 4种
  - 测试集: 6种

实体类型数量

头部实体 (训练集): 多种实体类型，如actor, airport, athlete等
尾部实体 (训练集): 多种实体类型，如city, company, country等
头部实体 (验证集): 多种实体类型，如city, country, person等
尾部实体 (验证集): 多种实体类型，如city, person, politicalparty等
头部实体 (测试集): 多种实体类型，如automobilemaker, geopoliticallocation, politicianus等
尾部实体 (测试集): 多种实体类型，如automobilemaker, person, sportsteam等

搜集汇总

数据集介绍

构建方式

relbert/nell数据集的构建是基于NELL-ONE数据集，该数据集是为了进行少量样本链接预测而设计的。数据集来源于Never Ending Language Learner (NELL)项目，该项目的目标是构建一个可以自动从网络文本中学习实体和关系的系统。NELL项目从网络中收集数据，并利用这些数据来训练和验证模型。relbert/nell数据集在NELL数据集的基础上，进行了适当的分割，形成了训练集、验证集和测试集，以便于进行模型训练和评估。

使用方法

relbert/nell数据集可用于少量样本链接预测任务的研究和模型训练。研究者可以使用数据集的训练集来训练模型，使用验证集来调整模型参数，使用测试集来评估模型的性能。此外，数据集还提供了实体类型和关系类型的数量，以及每种关系类型在各个数据集中的实例数量，这些信息可以帮助研究者更好地理解和利用数据集。

背景与挑战

背景概述

在知识图谱和关系推理的研究领域，如何从少量数据中准确预测实体间的关系是一个极具挑战性的问题。Relbert/nell数据集，即Never Ending Language Learner (NELL)数据集，是针对这一问题而构建的。NELL项目始于2007年，由卡内基梅隆大学的研究团队发起，旨在通过自动学习的方式不断扩展知识图谱。该数据集的核心研究问题是探索在少量样本的情况下，如何实现高精度的链接预测，这对于推动关系推理技术的发展具有重要意义。NELL数据集对相关领域的影响力体现在，它为研究者在少样本关系预测任务中提供了宝贵的实验数据和基准，促进了少样本学习技术在知识图谱领域的应用和发展。

当前挑战

Relbert/nell数据集主要面临的挑战包括：1) 所解决的领域问题的挑战：在少样本情况下实现高精度的链接预测，这要求模型能够从极小的数据集中学习到实体间复杂的关系模式；2) 构建过程中所遇到的挑战：由于数据集规模较小，且样本分布不均，如何在保持数据质量的同时，有效地平衡不同关系类型的样本数量，以避免模型对某些关系类型的过度依赖或忽视，是一个需要深入研究的课题。此外，如何在保证模型泛化能力的同时，提升其在特定关系类型上的预测性能，也是一个亟待解决的问题。

常用场景

经典使用场景

在知识图谱嵌入领域，relbert/nell数据集被广泛用于评估和训练模型进行链接预测。该数据集包含了丰富的实体和关系类型，为模型提供了多样性和复杂性的挑战。通过在relbert/nell数据集上进行训练，模型可以学习到如何从一个实体预测与其相关的另一个实体，这在知识图谱的补全、推荐系统以及实体识别等领域具有广泛的应用。

解决学术问题

relbert/nell数据集主要解决了知识图谱嵌入中的链接预测问题。在学术研究中，链接预测是评估知识图谱嵌入模型性能的重要指标之一。relbert/nell数据集通过提供不同数量的训练数据，使得研究者可以评估模型在少量样本下的泛化能力，这对于在实际应用中处理稀疏数据集具有重要的意义。此外，relbert/nell数据集还提供了不同关系类型的实例，有助于研究者在不同场景下评估模型的性能。

实际应用

relbert/nell数据集在实际应用中主要用于知识图谱的补全和推荐系统。通过在relbert/nell数据集上进行训练，模型可以学习到实体之间的关系，从而在知识图谱中预测缺失的链接。这在构建更完整、准确的知识图谱中发挥着重要作用。此外，relbert/nell数据集还可以用于推荐系统，通过预测用户与实体之间的关系，推荐系统可以为用户提供个性化的推荐内容。

数据集最近研究