five

PubMed Graph Benchmark (PGB)|生物医学文献数据集|图数据分析数据集

收藏
arXiv2023-08-25 更新2024-06-21 收录
生物医学文献
图数据分析
下载链接:
https://zenodo.org/record/6406776#.YqrOKnbMKUk
下载链接
链接失效反馈
资源简介:
PubMed Graph Benchmark (PGB) 是由埃默里大学创建的一个大型数据集,包含超过3000万篇生物医学文献。该数据集不仅包含基本的文献信息如摘要、作者和引用,还特别强调了MeSH术语和MeSH层次结构,这些是生物医学文献中的关键元数据。PGB的创建旨在通过提供丰富的元数据来评估异构图嵌入在生物医学文献中的应用,特别是在系统评价、节点分类和节点聚类等任务中。数据集的应用领域主要集中在自动化系统评价过程和提供比文本更优的表示,以解决生物医学领域中信息过载和数据复杂性的问题。
提供机构:
埃默里大学计算机科学系
创建时间:
2023-05-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
PubMed Graph Benchmark (PGB) 数据集的构建基于 S2ORC 语料库,该语料库包含比 PubMed 更完整的引用信息。PGB 通过从 S2ORC 中提取包含 PubMed ID (PMID) 的文章来聚焦于生物医学文献。此外,PGB 还整合了来自 PubMed 的丰富元数据,包括摘要、作者、引用、MeSH 术语、MeSH 层次结构等信息。这些元数据通过 Entrez API 从 PubMed 数据库中提取,并经过聚合和清理后,以 JSON 文件格式存储。PGB 还包含了 MeSH 术语层次结构数据,以揭示术语之间的层次关系。
特点
PGB 数据集的显著特点在于其丰富的元数据和多样的节点类型。数据集包含了五种节点类型(论文、作者、MeSH 术语、出版物类型和出版地)和七种边类型(P-P、P-A、A-A、P-M、P-V、P-T、M-M),形成了一个异构网络。此外,PGB 还捕捉了 MeSH 术语的层次结构,这种层次结构在其他现有的书目数据集中并不常见。这种层次结构有助于提高节点表示的质量,特别是在识别相似文章时。
使用方法
PGB 数据集可用于多种图嵌入任务,包括节点分类、节点聚类和系统评价(SR)。节点分类任务旨在确定文章的主题,节点聚类任务则用于识别相似的文章群组。系统评价任务则专注于通过标题和摘要筛选相关文章,以减少人工审查的工作量。数据集提供了详细的评估任务和相应的评估指标,如微观和宏观 F1 分数、归一化互信息(NMI)和调整兰德指数(ARI)。此外,PGB 还提供了代码和数据许可证信息,确保数据集的公开可用性和社区贡献的便利性。
背景与挑战
背景概述
PubMed Graph Benchmark (PGB) 是由埃默里大学计算机科学系的 Eric W Lee 和 Joyce C Ho 创建的一个新基准数据集,旨在评估生物医学文献的异构网络表示学习。该数据集的创建背景源于生物医学文献的快速增长,尽管图挖掘研究通过异构图神经网络取得了显著进展,但这些方法是否能有效捕捉 PubMed 数据库的异构性仍不明确。PubMed 数据库包含超过 3300 万篇与生物医学和健康领域相关的文章,其丰富的引文结构可以用于自动化系统评价(SR)过程,提供比文本更优的表示。PGB 数据集包含了丰富的元数据,包括摘要、作者、引文、MeSH 术语、MeSH 层次结构等信息,并公开了三个不同的评估任务,涵盖系统评价、节点分类和节点聚类。
当前挑战
PGB 数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括如何从 PubMed 和 S2ORC 等不同来源整合丰富的元数据,特别是 MeSH 术语的层次结构,以及如何处理引文信息的缺失和不一致性。其次,所解决的领域问题挑战在于如何有效地捕捉和表示 PubMed 数据库的异构性,现有的图神经网络主要在同构网络设置中进行研究,而学术图可能包含多种对象(节点)和链接类型(边),如作者信息、会议信息和关键词。此外,现有的异构图神经网络模型在处理大规模数据时的可扩展性问题也是一个重要挑战。
常用场景
经典使用场景
PubMed Graph Benchmark (PGB) 数据集的经典使用场景主要集中在生物医学文献的异构网络表示学习。该数据集通过整合丰富的元数据,包括摘要、作者、引用、MeSH 术语、MeSH 层次结构等信息,为生物医学文献的系统评价、节点分类和节点聚类提供了全面的数据支持。这些任务在生物医学研究中具有重要意义,能够帮助研究人员快速筛选相关文献、识别关键主题和发现潜在的研究趋势。
衍生相关工作
PGB 数据集的发布催生了一系列相关研究工作,特别是在异构网络表示学习和图神经网络领域。许多研究者基于 PGB 数据集开发了新的图嵌入模型,如 GAHNE 和 ie-HGCN,这些模型在节点分类和系统评价任务中表现出色。此外,PGB 还激发了对大规模异构网络数据处理和分析方法的研究,推动了图神经网络在生物医学领域的应用和发展。
数据集最近研究
最新研究方向
在生物医学文献领域,PubMed Graph Benchmark (PGB) 数据集的最新研究方向主要集中在异构网络表示学习及其在生物医学文献中的应用。随着生物医学文献的快速增长,如何有效地捕捉和利用文献中的异构信息成为一个重要的研究课题。PGB 数据集通过整合丰富的元数据,包括摘要、作者、引用、MeSH 术语及其层次结构等信息,为评估异构图嵌入提供了新的基准。当前的研究热点包括开发能够处理大规模异构网络的图神经网络模型,以及利用这些模型进行节点分类、节点聚类和系统评价等任务。这些研究不仅有助于提高文献检索和推荐的准确性,还能加速系统评价的过程,从而在生物医学领域产生深远的影响。
相关研究论文
  • 1
    PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation Learning埃默里大学计算机科学系 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

LUNA16

LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录