FB15k-237-subset

github2024-12-11 更新2024-12-14 收录

下载链接：

https://github.com/IDEA-FinAI/CATS

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于知识图谱补全的子集数据集，特别设计用于测试模型在不同场景（如传导性、归纳性和少样本学习）下的性能。

This is a subset dataset for knowledge graph completion, which is specifically designed to evaluate model performance across various scenarios including transductive, inductive, and few-shot learning.

创建时间：

2024-12-10

原始信息汇总

CATS: Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning

数据集

数据集和LLM指令可以从以下链接下载：
- Dataset & Instructions
将两个子文件夹 "datasets" 和 "instructions" 复制到项目目录中。
或者，可以通过执行 python build_instruction.py 来构建LLM指令提示。

LLM设置

可以从以下链接下载LLM检查点：

请更新脚本 data_manager.py 中的 LLM_PATH 默认值为本地模型路径。

引用

如果发现此代码有用，请考虑引用以下论文：

@misc{li2024contextawareinductiveknowledgegraph, title={Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning}, author={Muzhi Li and Cehao Yang and Chengjin Xu and Zixing Song and Xuhui Jiang and Jian Guo and Ho-fung Leung and Irwin King}, year={2024}, eprint={2410.16803}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2410.16803}, }

搜集汇总

数据集介绍

构建方式

FB15k-237-subset数据集的构建基于FB15k-237，这是一个广泛应用于知识图谱补全任务的数据集。该子集通过精心筛选和处理，保留了原数据集的核心结构和特征，同时优化了数据规模，以便于在资源受限的环境下进行实验。构建过程中，研究人员采用了上下文感知和潜在类型约束的方法，确保了数据集在知识图谱推理任务中的有效性和代表性。

使用方法

使用FB15k-237-subset数据集时，用户首先需下载完整的数据集和相关指令，并将'datasets'和'instructions'两个子文件夹复制到项目目录中。此外，用户可通过执行`python build_instruction.py`脚本自行构建指令提示。在模型训练阶段，建议使用Qwen2-7B-Instruct等预训练语言模型，并通过LLaMA-Factory进行监督微调。推理阶段，用户可通过调整参数在不同场景下测试模型性能。

背景与挑战

背景概述

FB15k-237-subset数据集是基于知识图谱补全任务的子集，由Muzhi Li等研究人员在2024年提出，作为其论文《Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning》的实验数据。该数据集旨在探索在知识图谱中进行上下文感知归纳推理的新方法，特别是通过潜在类型约束和子图推理来提升知识图谱补全的准确性。其研究背景源于知识图谱在人工智能领域的重要性，尤其是在语义理解和推理任务中，如何有效地补全和扩展知识图谱成为了一个核心问题。FB15k-237-subset的提出为这一领域的研究提供了新的实验平台，推动了知识图谱补全技术的发展。

当前挑战

FB15k-237-subset数据集在构建和应用过程中面临多项挑战。首先，知识图谱补全任务本身具有复杂性，尤其是在处理大规模、稀疏且结构化的数据时，如何准确预测缺失的实体和关系是一个难题。其次，该数据集在构建过程中需要处理上下文感知的归纳推理问题，这要求模型能够有效捕捉和利用知识图谱中的局部和全局信息。此外，潜在类型约束和子图推理的引入增加了模型的复杂性，如何在保证推理精度的同时，提升模型的计算效率和可扩展性，是该数据集面临的重要挑战。最后，如何在不同的推理场景（如转导、归纳和少样本学习）中保持模型的稳定性和一致性，也是该数据集需要解决的问题。

常用场景

经典使用场景

FB15k-237-subset数据集在知识图谱补全任务中展现了其独特的价值。该数据集通过引入上下文感知和潜在类型约束，结合子图推理技术，能够有效处理知识图谱中的不完整性问题。其经典使用场景包括在知识图谱中预测缺失的实体或关系，尤其是在处理大规模知识图谱时，能够显著提升推理的准确性和效率。

解决学术问题

FB15k-237-subset数据集解决了知识图谱领域中长期存在的补全难题。通过引入上下文感知和子图推理机制，该数据集不仅提升了知识图谱的完整性，还为研究者提供了一个强大的工具来探索和验证新的推理算法。其意义在于推动了知识图谱补全技术的进步，并为相关领域的研究提供了新的思路和方法。

实际应用

在实际应用中，FB15k-237-subset数据集被广泛应用于智能推荐系统、语义搜索和自然语言处理等领域。例如，在推荐系统中，该数据集可以帮助预测用户可能感兴趣的商品或服务，从而提升推荐效果。此外，在语义搜索中，它能够帮助搜索引擎更好地理解用户的查询意图，提供更精准的搜索结果。

数据集最近研究