KGraph/FB15k-237

Name: KGraph/FB15k-237
Creator: KGraph
Published: 2022-10-21 09:03:28
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/KGraph/FB15k-237

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - found - crowdsourced language: - en language_creators: [] license: - cc-by-4.0 multilinguality: - monolingual pretty_name: FB15k-237 size_categories: - 100K<n<1M source_datasets: - original tags: - knowledge graph - knowledge - link prediction - link task_categories: - other task_ids: [] --- # Dataset Card for FB15k-237 ## Table of Contents - [Dataset Card for FB15k-237](#dataset-card-for-fb15k-237) - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Initial Data Collection and Normalization](#initial-data-collection-and-normalization) - [Who are the source language producers?](#who-are-the-source-language-producers) - [Annotations](#annotations) - [Annotation process](#annotation-process) - [Who are the annotators?](#who-are-the-annotators) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** [https://deepai.org/dataset/fb15k-237](https://deepai.org/dataset/fb15k-237) - **Repository:** - **Paper:** [More Information Needed](https://paperswithcode.com/dataset/fb15k-237) - **Leaderboard:** - **Point of Contact:** ### Dataset Summary FB15k-237 is a link prediction dataset created from FB15k. While FB15k consists of 1,345 relations, 14,951 entities, and 592,213 triples, many triples are inverses that cause leakage from the training to testing and validation splits. FB15k-237 was created by Toutanova and Chen (2015) to ensure that the testing and evaluation datasets do not have inverse relation test leakage. In summary, FB15k-237 dataset contains 310,079 triples with 14,505 entities and 237 relation types. ### Supported Tasks and Leaderboards Supported Tasks: link prediction task on knowledge graphs. Leaderboads: [More Information Needed](https://paperswithcode.com/sota/link-prediction-on-fb15k-237) ### Languages [More Information Needed] ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information ``` @inproceedings{schlichtkrull2018modeling, title={Modeling relational data with graph convolutional networks}, author={Schlichtkrull, Michael and Kipf, Thomas N and Bloem, Peter and Berg, Rianne van den and Titov, Ivan and Welling, Max}, booktitle={European semantic web conference}, pages={593--607}, year={2018}, organization={Springer} } ``` ### Contributions Thanks to [@pp413](https://github.com/pp413) for adding this dataset.

--- annotations_creators: - 公开发掘式 - 众包标注 language: - 英语 language_creators: [] license: - 知识共享署名4.0（CC BY 4.0） multilinguality: - 单语言（monolingual） pretty_name: FB15k-237 size_categories: - 10万<n<100万 source_datasets: - 原始数据集 ags: - 知识图谱（knowledge graph） - 知识 - 链接预测（link prediction） - 链接 task_categories: - 其他 task_ids: [] --- # FB15k-237 数据集卡片 ## 目录 - [FB15k-237 数据集卡片](#fb15k-237-数据集卡片) - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概述](#数据集概述) - [支持任务与排行榜](#支持任务与排行榜) - [语言](#语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [构建初衷](#构建初衷) - [源数据](#源数据) - [初始数据收集与标准化处理](#初始数据收集与标准化处理) - [源语言生产者是谁？](#源语言生产者是谁？) - [标注信息](#标注信息) - [标注流程](#标注流程) - [标注者是谁？](#标注者是谁？) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集整理者](#数据集整理者) - [许可信息](#许可信息) - [引用信息](#引用信息) - [贡献者](#贡献者) ## 数据集描述 - **主页**：[https://deepai.org/dataset/fb15k-237](https://deepai.org/dataset/fb15k-237) - **代码仓库**：无 - **相关论文**：[更多信息待补充](https://paperswithcode.com/dataset/fb15k-237) - **排行榜**：无 - **联系人**：无 ### 数据集概述 FB15k-237 是基于 FB15k 构建的链接预测（link prediction）数据集。原始 FB15k 数据集包含1345种关系、14951个实体与592213条三元组，但其中存在大量反向三元组，会导致训练集信息向测试集与验证集泄露。Toutanova 与 Chen（2015）构建 FB15k-237 数据集，旨在消除测试与评估阶段的反向关系信息泄露问题。该数据集总计包含310079条三元组，涵盖14505个实体与237种关系类型。 ### 支持任务与排行榜支持任务：知识图谱（knowledge graph）链接预测任务。排行榜：[更多信息待补充](https://paperswithcode.com/sota/link-prediction-on-fb15k-237) ### 语言 [更多信息待补充] ## 数据集结构 ### 数据实例 [更多信息待补充] ### 数据字段 [更多信息待补充] ### 数据划分 [更多信息待补充] ## 数据集构建 ### 构建初衷 [更多信息待补充] ### 源数据 #### 初始数据收集与标准化处理 [更多信息待补充] #### 源语言生产者是谁？ [更多信息待补充] ### 标注信息 #### 标注流程 [更多信息待补充] #### 标注者是谁？ [更多信息待补充] ### 个人与敏感信息 [更多信息待补充] ## 数据集使用注意事项 ### 数据集的社会影响 [更多信息待补充] ### 偏差讨论 [更多信息待补充] ### 其他已知局限性 [更多信息待补充] ## 附加信息 ### 数据集整理者 [更多信息待补充] ### 许可信息 [更多信息待补充] ### 引用信息 @inproceedings{schlichtkrull2018modeling, title={Modeling relational data with graph convolutional networks}, author={Schlichtkrull, Michael and Kipf, Thomas N and Bloem, Peter and Berg, Rianne van den and Titov, Ivan and Welling, Max}, booktitle={European semantic web conference}, pages={593--607}, year={2018}, organization={Springer} } ### 贡献者感谢 [@pp413](https://github.com/pp413) 为本数据集的添加贡献。

提供机构：

KGraph

原始信息汇总

数据集概述

数据集名称

名称: FB15k-237

数据集属性

语言: 英语 (en)
许可证: cc-by-4.0
多语言性: 单语种
大小类别: 100K<n<1M
来源数据集: 原始
标签: 知识图谱, 知识, 链接预测, 链接
任务类别: 其他

数据集描述

摘要: FB15k-237是一个链接预测数据集，由FB15k衍生而来，旨在避免训练和测试集之间的逆关系测试泄露。该数据集包含310,079个三元组，涉及14,505个实体和237种关系类型。
支持的任务: 知识图谱的链接预测任务

数据集创建

注释创建者: 发现, 众包

引用信息

@inproceedings{schlichtkrull2018modeling, title={Modeling relational data with graph convolutional networks}, author={Schlichtkrull, Michael and Kipf, Thomas N and Bloem, Peter and Berg, Rianne van den and Titov, Ivan and Welling, Max}, booktitle={European semantic web conference}, pages={593--607}, year={2018}, organization={Springer} }

贡献者

贡献者: @pp413

搜集汇总

数据集介绍

构建方式

FB15k-237数据集的构建基于原始的FB15k数据集，旨在解决训练集与测试集之间存在的逆关系泄露问题。该数据集通过筛选和移除具有逆关系的三元组，确保了评估的公正性。构建过程中，数据集保留了14,505个实体和237种关系类型，共计310,079个三元组，为知识图谱中的链接预测任务提供了高质量的训练和评估资源。

使用方法

使用FB15k-237数据集时，研究者可以将其分为训练集、验证集和测试集，进行链接预测模型的训练和评估。数据集以三元组的形式提供，包含头实体、关系和尾实体，研究者可以根据这些信息构建图模型，并应用图卷积网络等先进技术进行模型训练。在使用前，需确保对数据集的结构和格式有充分了解，以便正确处理和利用数据。

背景与挑战

背景概述

FB15k-237数据集是在2015年由 Toutanova 和 Chen 创建的知识图谱链接预测数据集。该数据集脱胎于FB15k，针对其训练集与测试集存在反向关系泄露的问题进行了优化，以确保评估的公正性。FB15k-237包含14,505个实体和237种关系类型的310,079个三元组，旨在为知识图谱中的链接预测任务提供标准数据集，对知识图谱领域的研究产生了显著影响。

当前挑战

FB15k-237数据集面临的挑战主要包括：确保数据集中无反向关系泄露，以维护测试集的纯净性；以及如何在高维空间中有效地进行链接预测，提升算法的准确性和效率。构建过程中，数据收集和规范化的准确性、标注过程的一致性和标注者的可靠性都是关键挑战。此外，数据集可能存在的偏差和局限性也限制了其应用范围，需要在实际应用中加以考量。

常用场景

经典使用场景

在知识图谱研究领域，FB15k-237数据集的典型应用场景在于链接预测任务。该数据集经过精心设计，确保测试与评估数据集中不存在逆关系导致的泄露问题，从而提供了一个公平且具有挑战性的基准，供研究者评估其链接预测算法的性能。

解决学术问题

FB15k-237数据集解决了知识图谱中因逆关系引起的测试数据泄露问题，这对于评估链接预测算法的真实性能至关重要。其通过严格的数据清洗和预处理，为学术研究提供了更为准确和可靠的评价标准。

实际应用

在实际应用中，FB15k-237数据集的应用范围广泛，包括但不限于语义搜索、推荐系统以及自然语言处理中的实体识别和关系抽取任务。其准确性和可靠性使得基于该数据集的研究成果能够更好地转化为实际产品的功能。

数据集最近研究