GraphATC
收藏github2025-05-08 更新2025-05-09 收录
下载链接:
https://github.com/lookwei/GraphATC
下载链接
链接失效反馈官方服务:
资源简介:
GraphATC是一个全面的ATC数据集,用于药物开发和基础研究。它解决了以往研究仅关注世界卫生组织(WHO)定义的Level 1标签的问题,扩展到了Level-2标签,并包含了近年来新增的药物和现有药物的更新属性。
GraphATC is a comprehensive ATC dataset designed for drug development and fundamental research. It addresses the limitation of prior studies that only focused on Level 1 labels defined by the World Health Organization (WHO), expanding the coverage to Level-2 labels, and includes newly added drugs and updated attributes of existing drugs in recent years.
创建时间:
2025-04-22
原始信息汇总
GraphATC数据集概述
基本信息
- 数据集名称: GraphATC (ATC-GRAPH)
- 研究领域: 解剖治疗化学(ATC)分类
- 任务类型: 多层次多标签分类
- 发表信息: Briefings in Bioinformatics, Volume 26, Issue 2, March 2025
- DOI: 10.1093/bib/bbaf194
- 代码仓库: GitHub-GraphATC
- 演示网站: Demo Website
数据集特点
-
规模:
- 当前最全面的ATC数据集
- 总药物数量: 5,311
- 覆盖率: 92.78%
-
组成:
- 非聚合物: 5,259
- 聚合物: 52
- 小分子药物: 4,822
- 大分子药物: 489
- 单组分药物: 2,931
- 多组分药物: 2,380
-
层次结构:
- 支持Level 1和Level 2分类
数据集对比
| 特征 | Chen-2012 | ATC-SMILES | ATC-GRAPH |
|---|---|---|---|
| 年份 | 2012 | 2022 | 2024 |
| 非聚合物数量 | 3,852 | 4,545 | 5,259 |
| 聚合物数量 | 23 | 0 | 52 |
| 小分子数量 | 3,715 | 4,353 | 4,822 |
| 大分子数量 | 160 | 192 | 489 |
| 单组分数量 | 2,275 | 2,685 | 2,931 |
| 多组分数量 | 1,600 | 1,860 | 2,380 |
| 总数量 | 3,883 | 4,545 | 5,311 |
| 覆盖率 | 67.84% | 79.40% | 92.78% |
使用方法
- 数据集位置:
graphatc/dataset/ - 加载方式: 参考
graphatc/dataset/uni_dataset.py文件
训练与评估
-
Level 1分类:
- 训练:
bash scripts/train/train_GraphATC_L1.sh - 评估:
bash scripts/eval/eval_GraphATC_L1.sh
- 训练:
-
Level 2分类:
- 训练:
bash scripts/train/train_GraphATC_L2.sh - 评估:
bash scripts/eval/eval_GraphATC_L2.sh
- 训练:
-
输出位置:
graphatc/log/目录
搜集汇总
数据集介绍

构建方式
GraphATC数据集的构建基于原子级图学习技术,旨在解决解剖治疗化学(ATC)分类中的多层次、多标签问题。该数据集通过整合最新的药物信息和更新的WHO ATC系统属性,构建了迄今为止最全面的ATC数据集。特别针对聚合物、大分子药物和多组分药物,优化了其表示方法,并扩展了分类任务至第二级别(L2),从而显著提升了分类的准确性和覆盖范围。
特点
GraphATC数据集的特点在于其广泛的覆盖范围和精细的分类层级。数据集包含5259种非聚合物和52种聚合物药物,覆盖了92.78%的现有药物,远超以往基准数据集。此外,数据集还区分了小分子和大分子药物,并针对多组分药物提供了更有效的表示框架。这些特点使得GraphATC在药物分类研究中具有显著的优势和应用潜力。
使用方法
使用GraphATC数据集时,用户可以通过提供的脚本进行模型的训练和评估。数据集存储在`graphatc/dataset`目录中,加载方法可参考`uni_dataset.py`文件。训练过程支持Level 1和Level 2分类任务,分别通过运行`train_GraphATC_L1.sh`和`train_GraphATC_L2.sh`脚本实现。评估结果将保存在`graphatc/log`目录中,便于用户进行性能分析和比较。
背景与挑战
背景概述
GraphATC数据集由Wengyu Zhang等研究人员于2025年提出,旨在解决药物解剖治疗化学(ATC)分类中的多层级、多标签挑战。该数据集由香港理工大学等机构联合开发,发表在《Briefings in Bioinformatics》期刊上。传统ATC分类研究多局限于世界卫生组织(WHO)定义的一级标签,而GraphATC首次将研究范围扩展至二级标签,并整合了聚合物、大分子药物等多组分药物的表征学习,显著提升了分类的全面性和准确性。该数据集的推出填补了现有基准数据集(如Chen-2012和ATC-SMILES)在药物覆盖率和时效性上的不足,成为药物开发与基础研究领域的重要资源。
当前挑战
GraphATC数据集面临的挑战主要体现在两个方面:领域问题的复杂性与数据构建的技术难度。在领域层面,ATC分类本质上是多层级、多标签任务,需同时处理药物在不同层级上的类别关联性,而现有方法多聚焦单一层级,难以捕捉层级间的依赖关系。在数据构建上,聚合物和大分子药物的结构表征尤为困难,传统基于SMILES的表示方法无法准确反映其空间构型;此外,多组分药物的成分聚合需要设计新型框架以融合异构特征。数据集还需持续更新以涵盖WHO最新批准的药物,这对版本维护提出了较高要求。
常用场景
经典使用场景
在药物发现和开发领域,GraphATC数据集被广泛应用于多层级、多标签的解剖治疗化学分类任务。通过原子级别的图学习技术,该数据集能够精准捕捉药物分子的结构特征,为研究人员提供了一种全新的视角来理解药物与治疗类别之间的复杂关系。其独特的图表示方法使得模型能够从分子结构中提取深层次的特征,从而在药物分类任务中展现出卓越的性能。
解决学术问题
GraphATC数据集解决了传统ATC分类研究中仅关注单一层级标签的局限性,将研究范围扩展至多层级、多标签分类任务。通过构建更全面的数据集和优化的表示学习方法,该数据集显著提升了聚合物和大分子药物的分类准确性。其创新的框架还为多组分药物的表示学习提供了有效的解决方案,填补了现有基准数据集在覆盖范围和时效性上的不足。
衍生相关工作
基于GraphATC数据集,研究者们开发了一系列创新的药物分类模型和方法。这些工作不仅推动了图神经网络在药物发现领域的应用,还促进了多任务学习和层级分类算法的发展。该数据集还启发了对药物分子表示学习的深入研究,为后续工作提供了宝贵的基准和参考。
以上内容由遇见数据集搜集并总结生成



