five

PubMed Graph Benchmark (PGB)|生物医学文献数据集|图数据分析数据集

收藏
arXiv2023-08-25 更新2024-06-21 收录
生物医学文献
图数据分析
下载链接:
https://zenodo.org/record/6406776#.YqrOKnbMKUk
下载链接
链接失效反馈
资源简介:
PubMed Graph Benchmark (PGB) 是由埃默里大学创建的一个大型数据集,包含超过3000万篇生物医学文献。该数据集不仅包含基本的文献信息如摘要、作者和引用,还特别强调了MeSH术语和MeSH层次结构,这些是生物医学文献中的关键元数据。PGB的创建旨在通过提供丰富的元数据来评估异构图嵌入在生物医学文献中的应用,特别是在系统评价、节点分类和节点聚类等任务中。数据集的应用领域主要集中在自动化系统评价过程和提供比文本更优的表示,以解决生物医学领域中信息过载和数据复杂性的问题。
提供机构:
埃默里大学计算机科学系
创建时间:
2023-05-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
PubMed Graph Benchmark (PGB) 数据集的构建基于 S2ORC 语料库,该语料库包含比 PubMed 更完整的引用信息。PGB 通过从 S2ORC 中提取包含 PubMed ID (PMID) 的文章来聚焦于生物医学文献。此外,PGB 还整合了来自 PubMed 的丰富元数据,包括摘要、作者、引用、MeSH 术语、MeSH 层次结构等信息。这些元数据通过 Entrez API 从 PubMed 数据库中提取,并经过聚合和清理后,以 JSON 文件格式存储。PGB 还包含了 MeSH 术语层次结构数据,以揭示术语之间的层次关系。
特点
PGB 数据集的显著特点在于其丰富的元数据和多样的节点类型。数据集包含了五种节点类型(论文、作者、MeSH 术语、出版物类型和出版地)和七种边类型(P-P、P-A、A-A、P-M、P-V、P-T、M-M),形成了一个异构网络。此外,PGB 还捕捉了 MeSH 术语的层次结构,这种层次结构在其他现有的书目数据集中并不常见。这种层次结构有助于提高节点表示的质量,特别是在识别相似文章时。
使用方法
PGB 数据集可用于多种图嵌入任务,包括节点分类、节点聚类和系统评价(SR)。节点分类任务旨在确定文章的主题,节点聚类任务则用于识别相似的文章群组。系统评价任务则专注于通过标题和摘要筛选相关文章,以减少人工审查的工作量。数据集提供了详细的评估任务和相应的评估指标,如微观和宏观 F1 分数、归一化互信息(NMI)和调整兰德指数(ARI)。此外,PGB 还提供了代码和数据许可证信息,确保数据集的公开可用性和社区贡献的便利性。
背景与挑战
背景概述
PubMed Graph Benchmark (PGB) 是由埃默里大学计算机科学系的 Eric W Lee 和 Joyce C Ho 创建的一个新基准数据集,旨在评估生物医学文献的异构网络表示学习。该数据集的创建背景源于生物医学文献的快速增长,尽管图挖掘研究通过异构图神经网络取得了显著进展,但这些方法是否能有效捕捉 PubMed 数据库的异构性仍不明确。PubMed 数据库包含超过 3300 万篇与生物医学和健康领域相关的文章,其丰富的引文结构可以用于自动化系统评价(SR)过程,提供比文本更优的表示。PGB 数据集包含了丰富的元数据,包括摘要、作者、引文、MeSH 术语、MeSH 层次结构等信息,并公开了三个不同的评估任务,涵盖系统评价、节点分类和节点聚类。
当前挑战
PGB 数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括如何从 PubMed 和 S2ORC 等不同来源整合丰富的元数据,特别是 MeSH 术语的层次结构,以及如何处理引文信息的缺失和不一致性。其次,所解决的领域问题挑战在于如何有效地捕捉和表示 PubMed 数据库的异构性,现有的图神经网络主要在同构网络设置中进行研究,而学术图可能包含多种对象(节点)和链接类型(边),如作者信息、会议信息和关键词。此外,现有的异构图神经网络模型在处理大规模数据时的可扩展性问题也是一个重要挑战。
常用场景
经典使用场景
PubMed Graph Benchmark (PGB) 数据集的经典使用场景主要集中在生物医学文献的异构网络表示学习。该数据集通过整合丰富的元数据,包括摘要、作者、引用、MeSH 术语、MeSH 层次结构等信息,为生物医学文献的系统评价、节点分类和节点聚类提供了全面的数据支持。这些任务在生物医学研究中具有重要意义,能够帮助研究人员快速筛选相关文献、识别关键主题和发现潜在的研究趋势。
衍生相关工作
PGB 数据集的发布催生了一系列相关研究工作,特别是在异构网络表示学习和图神经网络领域。许多研究者基于 PGB 数据集开发了新的图嵌入模型,如 GAHNE 和 ie-HGCN,这些模型在节点分类和系统评价任务中表现出色。此外,PGB 还激发了对大规模异构网络数据处理和分析方法的研究,推动了图神经网络在生物医学领域的应用和发展。
数据集最近研究
最新研究方向
在生物医学文献领域,PubMed Graph Benchmark (PGB) 数据集的最新研究方向主要集中在异构网络表示学习及其在生物医学文献中的应用。随着生物医学文献的快速增长,如何有效地捕捉和利用文献中的异构信息成为一个重要的研究课题。PGB 数据集通过整合丰富的元数据,包括摘要、作者、引用、MeSH 术语及其层次结构等信息,为评估异构图嵌入提供了新的基准。当前的研究热点包括开发能够处理大规模异构网络的图神经网络模型,以及利用这些模型进行节点分类、节点聚类和系统评价等任务。这些研究不仅有助于提高文献检索和推荐的准确性,还能加速系统评价的过程,从而在生物医学领域产生深远的影响。
相关研究论文
  • 1
    PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation Learning埃默里大学计算机科学系 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CRSP Stock Database

CRSP Stock Database包含美国股票市场的历史数据,涵盖了股票价格、交易量、分红、拆股等信息。该数据库广泛用于金融研究,特别是资产定价和市场效率的研究。

www.crsp.org 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录