five

link_prediction

收藏
Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/CharlesLi/link_prediction
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了PubMed和Cora数据源的一跳和两跳搜索结果,每个搜索结果分为带标题和不带标题两种形式。数据集中的每个记录由一个prompt(提示)和一个answer(答案)组成,均为文本类型。数据集适用于文本检索或问答系统相关的任务。

This dataset includes 1-hop and 2-hop search results sourced from PubMed and Cora. Each search result has two variants: with a title and without a title. Every record in the dataset consists of a prompt and an answer, both of which are text-based data. This dataset is applicable to tasks related to text retrieval or question answering systems.
创建时间:
2025-05-10
原始信息汇总

数据集概述

基本信息

  • 数据集名称: link_prediction
  • 下载大小: 10,232,053 字节
  • 数据集大小: 32,833,189.418453272 字节

数据集结构

特征

  • prompt: 字符串类型
  • answer: 字符串类型

数据分片

  1. pubmed_1_hop_with_title
    • 字节数: 4,731,966.0
    • 样本数: 2,000
  2. pubmed_1_hop_without_title
    • 字节数: 1,562,261.0
    • 样本数: 2,000
  3. pubmed_2_hop_with_title
    • 字节数: 10,115,548.0
    • 样本数: 2,000
  4. pubmed_2_hop_without_title
    • 字节数: 3,065,585.0
    • 样本数: 2,000
  5. cora_1_hop_with_title
    • 字节数: 3,029,728.546409807
    • 样本数: 2,000
  6. cora_1_hop_without_title
    • 字节数: 1,424,436.1098996948
    • 样本数: 2,000
  7. cora_2_hop_with_title
    • 字节数: 6,392,042.171377299
    • 样本数: 2,000
  8. cora_2_hop_without_title
    • 字节数: 2,511,622.5907664723
    • 样本数: 2,000

配置信息

  • 默认配置
    • 数据文件路径:
      • pubmed_1_hop_with_title: data/pubmed_1_hop_with_title-*
      • pubmed_1_hop_without_title: data/pubmed_1_hop_without_title-*
      • pubmed_2_hop_with_title: data/pubmed_2_hop_with_title-*
      • pubmed_2_hop_without_title: data/pubmed_2_hop_without_title-*
      • cora_1_hop_with_title: data/cora_1_hop_with_title-*
      • cora_1_hop_without_title: data/cora_1_hop_without_title-*
      • cora_2_hop_with_title: data/cora_2_hop_with_title-*
      • cora_2_hop_without_title: data/cora_2_hop_without_title-*
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于PubMed和Cora两大权威学术文献数据库构建,采用知识图谱中经典的链路预测任务框架。通过提取文献间的引用关系网络,分别构建了单跳(1-hop)和双跳(2-hop)两类关联路径,每个路径样本包含带有标题和不带标题两种文本表述形式,共形成8个数据子集。数据采集过程中严格遵循学术规范,确保文献元数据的完整性和准确性。
使用方法
使用该数据集时,建议根据研究目标选择相应领域的子集进行实验。对于基础链路预测任务,可直接加载prompt-answer对进行端到端训练;若探究标题信息的作用,可对比分析with_title和without_title子集的性能差异。双跳样本适合研究复杂关系推理,需注意其路径长度带来的序列建模挑战。数据集采用标准JSON格式存储,可通过HuggingFace数据集库直接加载各split子集。
背景与挑战
背景概述
link_prediction数据集聚焦于图神经网络中的链接预测问题,该领域在知识图谱补全、社交网络分析等方向具有重要应用价值。数据集以PubMed和Cora两大权威学术文献网络为基础构建,通过捕捉单跳和双跳关系路径,为复杂网络中的潜在连接推理提供结构化测试基准。其多跳关系建模机制体现了对网络科学中高阶关联特性的深入探索,为图表示学习算法的评估提供了层次化验证框架。
当前挑战
该数据集面临的核心挑战在于多跳关系推理的语义复杂性,尤其当路径跨度增加时,节点间的隐含关联呈现非线性增长。构建过程中需解决学术文献网络特有的稀疏性和异构性问题,包括标题信息缺失对上下文理解的干扰,以及跨领域实体间语义鸿沟的消弭。数据标注环节涉及对学术文献引用网络的深度解析,要求在高噪声环境下保持关系路径的准确性和完备性。
常用场景
经典使用场景
在知识图谱与复杂网络分析领域,link_prediction数据集通过提供PubMed和Cora两大权威文献数据库的多跳链接关系,成为评估图神经网络链路预测性能的基准工具。其包含的带标题与不带标题两种文本形式,特别适合研究上下文信息对关系推理的影响,常被用于验证GNN、GCN等模型在捕捉高阶邻域特征时的有效性。
解决学术问题
该数据集有效解决了异构信息网络中的隐式关系挖掘难题,通过结构化存储1-hop和2-hop的节点关联路径,为学术界提供了研究长程依赖建模的标准测试平台。其意义在于量化评估了不同算法在跨文献主题关联预测、引文网络补全等任务中的表现,推动了动态图表示学习与可解释性推理方向的发展。
实际应用
实际应用中,该数据集支撑了学术搜索引擎的智能推荐系统优化,通过分析论文间的多阶引用关系,可自动发现潜在相关文献。医疗领域利用其PubMed子集构建疾病-基因关联网络,辅助研究者快速定位生物医学知识图谱中的隐藏联系,显著提升文献调研效率。
数据集最近研究
最新研究方向
在知识图谱与复杂网络分析领域,link_prediction数据集因其涵盖PubMed和CORA两大权威学术数据库的多跳链接预测任务而备受关注。该数据集通过区分标题存在与否的样本变体,为研究语义信息对图神经网络性能的影响提供了基准测试平台。当前前沿研究聚焦于探索多模态图注意力机制在跨文献知识推理中的表现,特别是在COVID-19相关医学文献激增的背景下,如何利用该数据集优化药物重定位预测模型成为热点。其双跳链接设计正推动学界突破传统单跳推理局限,为构建可解释性更强的生物医学知识发现系统提供关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作