five

OPBench

收藏
github2026-02-09 更新2026-02-21 收录
下载链接:
https://github.com/Tianyi-Billy-Ma/OPBench
下载链接
链接失效反馈
官方服务:
资源简介:
OPBench是一个基于图的基准,旨在研究如何应对阿片类药物危机。它提供了一个统一的框架,用于评估图神经网络(GNNs)、异构图神经网络和超图神经网络在药物相关检测和分类任务上的表现。包含5个精心策划的数据集,涵盖异构图、超图和多关系图。

OPBench is a graph-based benchmark designed to investigate approaches to addressing the opioid crisis. It provides a unified framework for evaluating the performance of Graph Neural Networks (GNNs), Heterogeneous Graph Neural Networks, and Hypergraph Neural Networks on drug-related detection and classification tasks. It includes five carefully curated datasets covering heterogeneous graphs, hypergraphs, and multi-relational graphs.
创建时间:
2026-02-08
原始信息汇总

OPBench 数据集概述

数据集简介

OPBench 是一个全面的基于图的基准测试,旨在为对抗阿片类药物危机的研究提供支持。它为评估图神经网络、异构图神经网络和超图神经网络在药物相关检测与分类任务上的性能提供了一个统一框架。

数据集构成

OPBench 包含 5 个精心策划的数据集,涵盖异构图、超图和多关系图:

数据集 类型 节点数 边数 特征维度 类别数 任务
PDMP 异构图 85,908 1.2M+ 768 2 阿片类药物过量检测
NHANCE 异构图 12,453 89K+ 768 2 饮食角色分类
Twitter-HyDrug-Role 超图 3,591 11,940 200 4 药物角色检测
Twitter-HyDrug-Comm 超图 3,591 11,940 200 8 社区检测(多标签)
Twitter-MRDrug-Role 多关系图 27,945 436K+ 384 4 药物角色检测

数据集详情

PDMP(处方药监控计划)

一个基于处方记录构建的异构图,包含 4 种节点类型:

  • 患者:用于过量预测的目标节点
  • 处方者:医疗服务提供者
  • 药房:配药地点
  • 药物:处方药物

Twitter 数据集

用于药物相关行为分析的社交媒体数据:

  • HyDrug-Role/Comm:用户交互的超图表示
  • MRDrug-Role:包含 3 种边类型(关键词、关注、推文)的多关系图

NHANCE

一个用于营养与健康分析的异构图,节点类型包括:用户、食物、成分、类别、习惯。

支持模型

标准图神经网络

  • GCN - 图卷积网络
  • GAT - 图注意力网络
  • GraphSAGE - 采样与聚合网络
  • GIN - 图同构网络

异构图神经网络

  • HAN - 异构图注意力网络
  • HGT - 异构图变换器
  • RGCN - 关系图卷积网络
  • HGMAE - 异构图掩码自编码器

超图神经网络

  • HGNN - 超图神经网络
  • HyperGCN - 超图卷积
  • AllSet - AllSet 变换器
  • ED-HNN - 等变超图神经网络
  • HNHN - 具有超边神经元的超图网络

项目结构

OPBench/ ├── configs/ │ ├── run/ # 单次运行配置 │ └── sweep/ # 超参数扫描配置 ├── datasets/ │ ├── hetgraphs/ # 异构图数据集 │ ├── hypergraphs/ # 超图数据集 │ └── graphs/ # 标准图数据集 ├── src/ │ ├── data/ # 数据加载与处理 │ ├── models/ # 模型实现 │ ├── train/ # 训练逻辑 │ ├── metrics/ # 评估指标 │ ├── hparams/ # 配置管理 │ └── main.py # 程序入口 └── outputs/ # 实验结果

输出结构

结果保存在 ./outputs/<run_name>/ 目录下:

outputs/<run_name>/ ├── config/ # 保存的配置 ├── pretrain/ # 预训练检查点(如适用) ├── finetune/ # 微调检查点 ├── eval/ # 评估结果 │ ├── run_results.json │ └── run_results.md └── logs/ # 训练日志

许可证

本项目采用 MIT 许可证。详情见 https://github.com/Tianyi-Billy-Ma/OPBench/blob/main/LICENSE 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
在应对阿片类药物危机的背景下,OPBench数据集通过整合多源异构信息构建而成。其核心数据集PDMP基于处方药监控计划的真实记录,将患者、处方者、药房和药物作为四种节点类型,形成包含超过120万条边的异质图结构。Twitter数据集则从社交媒体平台提取用户交互数据,分别构建了超图和多关系图,其中超图捕捉了复杂的群体互动模式,多关系图则通过关键词、关注和推文三种边类型刻画用户行为。NHANCE数据集进一步扩展至营养健康领域,融合用户、食物、成分等多类节点,共同支撑药物滥用检测与健康行为分析的研究需求。
使用方法
研究者可通过统一的配置框架快速开展实验,利用YAML文件定义数据集选择、模型架构及训练参数。命令行接口支持单次运行、多轮实验和超参数扫描三种模式,通过指定配置文件即可启动对应流程。数据加载模块自动处理异质图与超图的格式转换,内置的数据划分策略确保实验可复现性。训练过程集成了早停机制和多种评估指标,结果以结构化JSON和Markdown格式保存于分层目录中。该基准兼容PyTorch Geometric生态,提供从标准GCN到异质图注意力网络等十余种模型实现,支持跨架构的性能对比研究。
背景与挑战
背景概述
在公共卫生与药物滥用防控领域,数据驱动的分析方法正成为应对阿片类药物危机的关键工具。OPBench数据集由研究机构于近年创建,旨在为图神经网络在药物相关检测与分类任务上提供一个统一的评估框架。该数据集整合了异质图、超图及多关系图等多种图结构,覆盖处方药监控、社交媒体行为及营养健康分析等多个维度,核心研究问题聚焦于利用图表示学习技术精准识别药物滥用风险、用户角色及社区动态。其发布显著推动了图神经网络在公共卫生领域的应用,为跨学科研究提供了标准化基准,助力于开发更有效的干预策略与政策制定。
当前挑战
OPBench数据集致力于解决药物滥用检测与分类中的复杂图学习问题,其核心挑战在于如何有效建模多源异构数据中的高阶交互与动态关系。具体而言,在领域问题层面,异质图与超图结构带来了节点类型多样性与超边关联性的建模难题,例如处方记录中患者、医生、药房和药物间的复杂依赖,以及社交媒体中用户交互的群体行为模式识别。在构建过程中,数据整合面临隐私保护与多源对齐的挑战,如处方数据的脱敏处理与社交媒体数据的噪声过滤,同时需确保图结构的语义一致性与任务适配性,以支撑鲁棒的模型评估与泛化能力验证。
常用场景
经典使用场景
在公共卫生与药物滥用防控领域,OPBench数据集为图神经网络研究提供了标准化的评估平台。其经典使用场景集中于药物过量风险预测,例如通过PDMP异构图模型,整合患者、处方者、药房和药物等多类型节点,模拟真实世界处方监控网络,从而训练模型识别高危个体。该场景不仅验证了图结构在复杂关系建模中的优越性,也为后续算法优化奠定了基准。
解决学术问题
OPBench致力于解决图学习在公共卫生应用中的关键学术问题,包括异构信息融合、超图关系建模以及多标签分类挑战。通过提供涵盖异构图、超图和多关系图的多样化数据,该数据集帮助研究者探索图神经网络在非欧几里得数据上的泛化能力,并推动药物滥用检测、社区发现等任务的算法创新。其意义在于弥合了图机器学习理论与实际社会问题之间的鸿沟,为应对阿片危机提供了可量化的研究工具。
实际应用
在实际应用层面,OPBench数据集可直接服务于公共卫生监测与干预系统。例如,基于Twitter社交数据构建的超图模型能够自动识别网络中的药物滥用相关角色与社区,辅助卫生部门进行精准风险预警。同时,PDMP数据集的分析结果可为处方药物监控项目提供数据驱动的决策支持,优化医疗资源分配,从而在现实世界中助力药物过量预防策略的制定与实施。
数据集最近研究
最新研究方向
在公共卫生与药物滥用防控领域,图神经网络技术的应用正成为前沿探索焦点。OPBench作为针对阿片类药物危机设计的图基准测试集,其最新研究聚焦于异构图、超图及多关系图模型在药物检测与分类任务中的性能评估与优化。当前热点方向包括利用异构图注意力网络(HAN)和异构图变换器(HGT)分析处方药监控程序(PDMP)数据,以预测患者用药过量风险;同时,超图神经网络(如HGNN、HyperGCN)被用于挖掘社交媒体中药物相关行为的复杂交互模式,以识别潜在滥用社区。这些研究不仅推动了图表示学习在公共卫生领域的实际应用,也为制定精准干预策略提供了数据驱动的科学依据,具有重要的社会意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作