five

ADMEOOD

收藏
arXiv2023-10-11 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2310.07253v1
下载链接
链接失效反馈
官方服务:
资源简介:
ADMEOOD是一个专为药物属性预测设计的系统性OOD数据集和基准,由华中农业大学信息学院创建。该数据集从ChEMBL和相关文献中获取了27种ADME(吸收、分布、代谢、排泄)药物属性,并包含两种OOD数据偏移:噪声偏移和概念冲突漂移。噪声偏移通过将环境分类为不同置信度级别来响应噪声水平,而概念冲突漂移描述了原始数据中标签不一致的数据。ADMEOOD旨在通过严格的OOD基准测试,评估模型在OOD数据上的性能,特别关注药物属性预测领域的问题。

ADMEOOD is a systematic out-of-distribution (OOD) dataset and benchmark specifically designed for drug property prediction, created by the School of Information Sciences at Huazhong Agricultural University. This dataset gathers 27 ADME (Absorption, Distribution, Metabolism, Excretion) drug properties from ChEMBL and relevant literature, and incorporates two types of OOD data shifts: noise shift and concept conflict drift. Noise shift aligns with different noise levels by classifying environments into distinct confidence tiers, while concept conflict drift refers to data entries with inconsistent labels in the original dataset. ADMEOOD is designed to assess model performance on OOD data through rigorous OOD benchmark tests, with a particular focus on issues in the domain of drug property prediction.
提供机构:
华中农业大学信息学院
创建时间:
2023-10-11
搜集汇总
数据集介绍
main_image_url
构建方式
ADMEOOD数据集基于大规模生物活性数据库ChEMBL及相关文献,系统性地筛选出27种与吸收、分布、代谢、排泄(ADME)相关的药物属性。在构建过程中,首先对原始数据进行标准化处理,包括噪声水平标注、不确定值处理、缺失值剔除以及药物属性数据的过滤。随后,通过两种数据偏移方法——噪声偏移和概念冲突漂移——来划分分布外数据。噪声偏移根据置信度将环境分为不同噪声等级,而概念冲突漂移则识别因实验来源不同导致的标签矛盾样本,从而构建出24个具有明确分布偏移标注的数据集实例。
特点
该数据集的核心特点在于其针对药物属性预测领域设计的双重分布偏移机制。噪声偏移反映了真实世界中不同实验置信度带来的噪声差异,使模型能够评估在不同噪声环境下的鲁棒性。概念冲突漂移则捕捉了同一化合物在不同实验中标签不一致的现象,模拟了数据源的异质性。此外,数据集涵盖了多种测量类型(如EC50、Ki和效价)以及两个领域划分(基于实验测定和分子骨架),提供了丰富的评估维度,揭示了分布内与分布外数据之间显著的性能差距。
使用方法
使用ADMEOOD数据集时,首先通过自动化数据管理流程加载化合物分子,这些分子以SMILES序列表示,但推荐将其转换为分子图结构作为模型输入,以保留完整的拓扑信息。数据集支持多种图神经网络骨干网络(如GCN、GIN、GAT和MGCN)以及领域泛化算法(如ERM、IRM、DeepCORAL和Mixup)的评估。用户可根据研究目标选择噪声偏移或概念冲突漂移的数据划分,并在测定或骨架域上进行训练和测试,以系统比较模型在分布外场景下的泛化能力。
背景与挑战
背景概述
在药物研发领域,超过50%的临床试验失败归因于候选化合物在吸收、分布、代谢、排泄与毒性(ADMET)性质上的缺陷,这使得精准预测药物分子的ADME属性成为加速新药发现的关键环节。然而,过去一个世纪以来,化学知识与实验数据积累自全球不同地区、实验室和实验目的,导致数据存在显著的噪声与不一致性。为应对这一困境,华中农业大学联合深圳营养与健康研究院等机构的研究人员于2023年提出了ADMEOOD基准数据集,该数据集从ChEMBL数据库及文献中系统整理了27种ADME药物属性,并创新性地引入两种分布偏移类型——噪声偏移与概念冲突漂移,旨在为药物属性预测中的分布外泛化问题提供标准化评测平台。ADMEOOD的发布填补了该领域缺乏系统性OOD基准的空白,为评估模型在真实噪声环境下的鲁棒性奠定了重要基础。
当前挑战
ADMEOOD所面临的挑战主要源于两个层面。在领域问题层面,药物属性预测数据本身存在多重分布偏移:噪声偏移源于实验测量中不同置信水平、单位转换错误及重复引用等导致的标签质量差异;概念冲突漂移则因同一化合物在不同实验场景中被赋予矛盾标签,破坏了传统监督学习中样本与标签的唯一映射关系,严重削弱模型泛化能力。在数据集构建过程中,挑战体现为从大规模生物测定数据库ChEMBL中自动筛选并标准化27种ADME属性时,需处理缺失值、不确定性值及多来源数据的异质性;同时,如何合理划分噪声等级并设计反映真实生物化学知识的环境域(如测定类型、分子骨架),以及确保不同偏移方法下数据集的可比性与可重复性,均构成技术难点。
常用场景
经典使用场景
在药物分子性质预测领域,数据分布偏移是制约模型泛化能力的核心瓶颈。ADMEOOD作为专门针对药物吸收、分布、代谢、排泄等27种关键性质设计的离群分布基准数据集,通过引入噪声偏移与概念冲突漂移两种数据划分策略,为评估模型在真实异质环境下的鲁棒性提供了标准化测试平台。该数据集从ChEMBL大规模生物测定数据库中自动化筛选并标注了领域信息,支持基于测定平台与分子骨架的域划分,使得研究者能够系统性地探究不同噪声等级和标签冲突对预测性能的影响,从而推动药物性质预测模型从理想独立同分布假设向复杂现实场景的跨越。
实际应用
在药物研发管线中,ADMEOOD的应用价值贯穿先导化合物优化与临床前评估阶段。制药企业可利用该数据集测试其内部预测模型在面对来自不同实验室、不同测定条件下的新化合物时,是否能稳定输出可靠的吸收与代谢性质。尤其在处理高噪声环境下的高通量筛选数据时,该基准能够帮助识别模型在低置信度样本上的失效边界,从而指导数据清洗策略与实验设计。此外,对于涉及多来源生物活性数据整合的虚拟筛选平台,ADMEOOD提供的噪声偏移与标签冲突分析框架可直接用于提升候选分子排序的可靠性,降低因模型误判导致的后期临床试验失败风险。
衍生相关工作
ADMEOOD的提出催生了多项旨在增强药物分子分布外泛化能力的研究工作。受其启发,研究者基于该基准测试了包括不变风险最小化、深度相关对齐与混合增强在内的多种前沿域泛化算法,结果发现现有方法在噪声偏移场景下甚至不如简单的经验风险最小化,这一反直觉结论直接推动了针对药物性质预测的因果推断模型与自适应去噪架构的开发。后续工作进一步将ADMEOOD中的双偏移划分思想扩展到毒性预测与多任务学习领域,衍生出如噪声鲁棒的分子图神经网络与标签冲突感知的对比学习框架,形成了以分布偏移为核心的新兴研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作