five

NDC-classes

收藏
Hugging Face2026-02-16 更新2026-02-17 收录
下载链接:
https://huggingface.co/datasets/daqh/NDC-classes
下载链接
链接失效反馈
官方服务:
资源简介:
NDC-classes 是一个与超图相关的数据集,基于 2018 年 Austin R. Benson 等人发表的论文《Simplicial closure and higher-order link prediction》。该论文探讨了单纯闭包和高阶链接预测的问题,发表在《美国国家科学院院刊》(PNAS)上。数据集可能包含用于研究超图结构或高阶链接预测的相关数据,适用于复杂网络分析、图机器学习等领域的研究。
创建时间:
2026-02-09
搜集汇总
数据集介绍
构建方式
在药物信息学领域,构建能够捕捉高阶关联的数据集对于揭示复杂药物分类模式至关重要。NDC-classes数据集基于美国食品药品监督管理局的国家药品代码目录构建,通过将每种药物映射为一个超边,连接其对应的药理学或治疗学类别标签,从而形成一个无向超图结构。该构建方法将药物与多类别之间的共分类关系转化为高阶交互,而非传统的成对链接,有效保留了药物分类体系中的多对多关联特性。
特点
该数据集的核心特点在于其高阶网络表征能力,节点代表具体的药物类别标签,超边则对应药物实体,天然捕捉了类别之间的共现模式。除了提供完整的超图拓扑结构外,数据集还预计算了丰富的向量特征,包括超图拉普拉斯矩阵的特征向量、基于随机游走的Node2Vec嵌入以及通过虚拟标签传播生成的自监督VilLain嵌入。这些特征为药物领域的表示学习与下游任务提供了即用的实验基础,支持从谱分析到深度学习等多种研究方法。
使用方法
研究人员可通过HuggingFace平台便捷加载该数据集,利用提供的HIF格式直接重构完整的关联结构。典型的使用流程包括加载数据、转换为超图对象,并利用预计算的节点与超边特征进行表示学习或预测任务。该数据集适用于高阶链接预测、药物分类分析、超图神经网络训练等场景,为药物信息学与图机器学习交叉研究提供了标准化的基准数据。
背景与挑战
背景概述
在药物信息学与复杂网络交叉领域,传统图模型难以捕捉药物与多类别标签间的高阶关联。NDC-classes数据集应运而生,由康奈尔大学等机构的研究团队于2018年基于美国食品药品监督管理局国家药品代码目录构建。该数据集将药物视为超边,连接其对应的药理学或治疗学类别节点,旨在通过超图结构揭示药物共分类模式,为高阶网络分析与药物发现提供结构化数据基础,推动了超图机器学习在生物医药领域的应用。
当前挑战
该数据集致力于解决药物分类系统中的高阶关系建模挑战,传统成对链接无法充分表达药物与多个类别标签间的复杂交互,需发展超图特定算法以进行链路预测与表示学习。在构建过程中,从异构监管数据中提取一致且规范化的类别标签、处理稀疏连接组件以及确保超图结构的生物学可解释性均构成显著难点,同时需平衡拓扑完整性与计算效率以支持大规模机器学习任务。
常用场景
经典使用场景
在药物信息学与复杂网络分析领域,NDC-classes数据集作为高阶网络结构的典型代表,其经典应用场景聚焦于超图机器学习模型的训练与评估。该数据集将美国食品药品监督管理局国家药品代码目录中的药物分类标签构建为超边,节点则对应药理学或治疗学类别,从而捕捉多类别共现的高阶交互模式。研究人员常利用此数据集开发超图神经网络、链路预测或社区发现算法,以验证模型在捕获药物分类复杂关联方面的性能,为药物领域的网络科学问题提供基准测试平台。
实际应用
在实际应用层面,NDC-classes数据集为药物研发与医疗信息管理提供了重要支撑。基于该数据集构建的预测模型可用于药物重定位分析,通过识别未直接关联但共享多重分类标签的药物,发现潜在的新治疗用途。此外,在医药知识图谱构建中,该数据集的高阶关联信息能够增强药物类别关系的推理能力,辅助临床决策支持系统优化药品推荐或不良反应预警。这些应用不仅提升了药物数据的利用效率,也为个性化医疗与精准用药提供了数据驱动的见解。
衍生相关工作
围绕NDC-classes数据集,已衍生出一系列经典的超图机器学习研究工作。例如,基于该数据集的谱特征与Node2Vec嵌入方法被广泛应用于超图表示学习的基准比较,而VilLain等自监督学习框架则利用其进行虚拟标签传播实验,推动了超图嵌入技术的发展。在理论层面,该数据集常被用于验证高阶链路预测模型,如基于单纯闭包的预测算法,这些工作深化了对超图动力学与结构预测的理解,并为后续药物网络分析研究提供了可复现的范例与算法基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作