five

FB15k-237-subset

收藏
github2024-12-11 更新2024-12-14 收录
下载链接:
https://github.com/IDEA-FinAI/CATS
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于知识图谱补全的子集数据集,特别设计用于测试模型在不同场景(如传导性、归纳性和少样本学习)下的性能。

This is a subset dataset for knowledge graph completion, which is specifically designed to evaluate model performance across various scenarios including transductive, inductive, and few-shot learning.
创建时间:
2024-12-10
原始信息汇总

CATS: Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning

数据集

  1. 数据集和LLM指令可以从以下链接下载:

  2. 将两个子文件夹 "datasets" 和 "instructions" 复制到项目目录中。

  3. 或者,可以通过执行 python build_instruction.py 来构建LLM指令提示。

LLM设置

可以从以下链接下载LLM检查点:

请更新脚本 data_manager.py 中的 LLM_PATH 默认值为本地模型路径。

引用

如果发现此代码有用,请考虑引用以下论文:

@misc{li2024contextawareinductiveknowledgegraph, title={Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning}, author={Muzhi Li and Cehao Yang and Chengjin Xu and Zixing Song and Xuhui Jiang and Jian Guo and Ho-fung Leung and Irwin King}, year={2024}, eprint={2410.16803}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2410.16803}, }

搜集汇总
数据集介绍
main_image_url
构建方式
FB15k-237-subset数据集的构建基于FB15k-237,这是一个广泛应用于知识图谱补全任务的数据集。该子集通过精心筛选和处理,保留了原数据集的核心结构和特征,同时优化了数据规模,以便于在资源受限的环境下进行实验。构建过程中,研究人员采用了上下文感知和潜在类型约束的方法,确保了数据集在知识图谱推理任务中的有效性和代表性。
使用方法
使用FB15k-237-subset数据集时,用户首先需下载完整的数据集和相关指令,并将'datasets'和'instructions'两个子文件夹复制到项目目录中。此外,用户可通过执行`python build_instruction.py`脚本自行构建指令提示。在模型训练阶段,建议使用Qwen2-7B-Instruct等预训练语言模型,并通过LLaMA-Factory进行监督微调。推理阶段,用户可通过调整参数在不同场景下测试模型性能。
背景与挑战
背景概述
FB15k-237-subset数据集是基于知识图谱补全任务的子集,由Muzhi Li等研究人员在2024年提出,作为其论文《Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning》的实验数据。该数据集旨在探索在知识图谱中进行上下文感知归纳推理的新方法,特别是通过潜在类型约束和子图推理来提升知识图谱补全的准确性。其研究背景源于知识图谱在人工智能领域的重要性,尤其是在语义理解和推理任务中,如何有效地补全和扩展知识图谱成为了一个核心问题。FB15k-237-subset的提出为这一领域的研究提供了新的实验平台,推动了知识图谱补全技术的发展。
当前挑战
FB15k-237-subset数据集在构建和应用过程中面临多项挑战。首先,知识图谱补全任务本身具有复杂性,尤其是在处理大规模、稀疏且结构化的数据时,如何准确预测缺失的实体和关系是一个难题。其次,该数据集在构建过程中需要处理上下文感知的归纳推理问题,这要求模型能够有效捕捉和利用知识图谱中的局部和全局信息。此外,潜在类型约束和子图推理的引入增加了模型的复杂性,如何在保证推理精度的同时,提升模型的计算效率和可扩展性,是该数据集面临的重要挑战。最后,如何在不同的推理场景(如转导、归纳和少样本学习)中保持模型的稳定性和一致性,也是该数据集需要解决的问题。
常用场景
经典使用场景
FB15k-237-subset数据集在知识图谱补全任务中展现了其独特的价值。该数据集通过引入上下文感知和潜在类型约束,结合子图推理技术,能够有效处理知识图谱中的不完整性问题。其经典使用场景包括在知识图谱中预测缺失的实体或关系,尤其是在处理大规模知识图谱时,能够显著提升推理的准确性和效率。
解决学术问题
FB15k-237-subset数据集解决了知识图谱领域中长期存在的补全难题。通过引入上下文感知和子图推理机制,该数据集不仅提升了知识图谱的完整性,还为研究者提供了一个强大的工具来探索和验证新的推理算法。其意义在于推动了知识图谱补全技术的进步,并为相关领域的研究提供了新的思路和方法。
实际应用
在实际应用中,FB15k-237-subset数据集被广泛应用于智能推荐系统、语义搜索和自然语言处理等领域。例如,在推荐系统中,该数据集可以帮助预测用户可能感兴趣的商品或服务,从而提升推荐效果。此外,在语义搜索中,它能够帮助搜索引擎更好地理解用户的查询意图,提供更精准的搜索结果。
数据集最近研究
最新研究方向
在知识图谱领域,FB15k-237-subset数据集的研究正朝着上下文感知和归纳推理的方向深入发展。最新的研究如《Context-aware Inductive Knowledge Graph Completion with Latent Type Constraints and Subgraph Reasoning》提出了一种结合潜在类型约束和子图推理的方法,旨在提升知识图谱补全的准确性和效率。这种方法不仅考虑了实体和关系的显式信息,还引入了上下文感知机制,使得模型能够更好地处理复杂的推理任务。此外,该研究还探索了大规模语言模型(如Qwen2-7B-Instruct)在知识图谱补全中的应用,展示了其在处理大规模数据和复杂推理任务中的潜力。这些进展为知识图谱在智能系统中的应用提供了新的视角和方法,具有重要的理论和实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作