ACNet
收藏arXiv2023-02-15 更新2024-06-21 收录
下载链接:
https://drugai.github.io/ACNet/
下载链接
链接失效反馈官方服务:
资源简介:
ACNet是由复旦大学创建的大规模数据集,专注于活动悬崖(AC)预测,对药物发现具有重要意义。该数据集包含超过400K匹配分子对(MMPs),针对190个目标,包括20K MMP悬崖和380K非AC MMPs,提供五个子集用于模型开发和评估。数据集的创建过程涉及从ChEMBL数据库中筛选活动数据,并通过特定的算法识别MMPs。ACNet的应用领域主要集中在AI辅助的药物发现中,旨在预测分子对是否展示AC关系,从而加速活性分子的早期探索和设计。
ACNet is a large-scale dataset developed by Fudan University, focusing on Activity Cliff (AC) prediction, which is of great significance to drug discovery. This dataset contains over 400K matched molecular pairs (MMPs), covering 190 targets, including 20K MMP cliffs and 380K non-AC MMPs, and provides five subsets for model development and evaluation. The dataset creation process involves screening activity data from the ChEMBL database and identifying MMPs via specific algorithms. The primary application domains of ACNet are centered on AI-aided drug discovery, where it aims to predict whether a molecular pair exhibits an AC relationship, thereby accelerating the early exploration and design of active molecules.
提供机构:
复旦大学
创建时间:
2023-02-15
搜集汇总
数据集介绍

构建方式
在药物发现领域,活性悬崖(Activity Cliffs, ACs)作为结构相似分子间结合效力显著差异的现象,对定量构效关系研究具有关键意义。ACNet数据集的构建始于公开数据库ChEMBL(版本28),通过严格筛选获得142,307条高质量活性记录,涵盖人类靶点的直接结合测定数据。采用匹配分子对(Matched Molecular Pairs, MMPs)作为活性悬崖的相似性标准,利用Hussain等人提出的算法识别所有可能的MMPs,并施加取代基大小限制(如取代基最多含13个重原子),以确保与实践中结构类似物的一致性。最终,通过设定效力差异阈值(ΔpKi ≥ 2.0为活性悬崖,ΔpKi ≤ 1.0为非活性悬崖),从190个靶点中整理出21,352个正样本和423,282个负样本,形成覆盖400K以上MMPs的大规模数据集。
特点
ACNet数据集展现出多重复杂特征,为活性悬崖预测任务提供了深度挑战。其数据组织基于靶点划分,形成190个独立预测任务,并依据样本量分为Large、Medium、Small和Few四个子集,呈现显著的低数据特征,尤其在Small和Few子集中样本匮乏问题突出。数据分布高度不平衡,正负样本比例普遍低于0.2,增加了模型训练的难度。此外,通过靶点分割方法构建的Mix子集引入了分布外(Out-of-Distribution, OOD)特征,迫使模型从不同靶点的数据中学习通用知识,以应对域泛化问题。这些特性共同使得ACNet成为评估深度学习模型在非独立同分布场景下鲁棒性的理想基准。
使用方法
ACNet数据集为活性悬崖预测模型的开发与评估提供了系统化框架。研究者可采用论文提出的基线框架,将各种深度学习模型作为骨干编码器,提取完整分子的表示向量,经拼接后输入多层感知机进行二分类预测。对于Large、Medium和Small子集,建议按8:1:1比例随机划分训练、验证和测试集,并以AUC-ROC作为主要评估指标。针对Few子集,可利用预训练模型作为固定编码器,仅微调下游分类器,以应对小样本场景。Mix子集则需采用靶点分割策略,确保训练与测试集来自不同靶点分布,以检验模型的域泛化能力。数据及代码已公开,便于社区复现实验并推动算法创新。
背景与挑战
背景概述
在人工智能辅助药物发现领域,活性悬崖(Activity Cliffs, ACs)作为一对结构相似但结合效力差异显著的分子对,其预测对于理解定量构效关系与优化先导化合物至关重要。复旦大学与腾讯人工智能实验室的研究团队于2023年共同构建了ACNet数据集,旨在系统探索AC预测这一尚未充分开发的科学问题。该数据集基于ChEMBL数据库,精心筛选并整合了针对190个靶点的超过40万对匹配分子对,其中包含逾2万对活性悬崖样本与38万对非活性悬崖样本。ACNet的创立不仅填补了该领域缺乏大规模基准数据集的空白,更通过其五个精心设计的子集,为深度表征学习模型在药物发现中的性能评估提供了标准化平台,有望推动AI在分子性质预测与活性悬崖机制解析方面的突破性进展。
当前挑战
ACNet数据集所应对的核心科学挑战在于准确预测匹配分子对是否呈现活性悬崖关系,这直接关联到药物发现中分子相似性与活性差异之间复杂非线性映射的建模难题。在数据集构建过程中,研究者面临多重挑战:其一,数据高度不平衡,正负样本比例悬殊,多数任务中阳性样本占比低于0.2,导致模型易于偏向多数类;其二,低数据特征显著,尤其是Small与Few子集中任务样本量有限,最小仅含36个样本,严重制约了数据驱动模型的训练效果;其三,Mix子集通过靶点划分方法引入了分布外泛化问题,要求模型从异构靶点数据中学习跨域的共性化学修饰规律,这对传统基于独立同分布假设的深度学习模型构成了严峻考验。
常用场景
经典使用场景
在人工智能辅助药物发现领域,活性悬崖预测作为一项关键任务,旨在识别结构相似但生物活性差异显著的分子对。ACNet数据集通过整合超过40万个匹配分子对,覆盖190个生物靶点,为研究者提供了系统评估深度学习模型性能的基准平台。该数据集尤其适用于探索分子表示学习在复杂生物活性关系中的泛化能力,成为推动定量构效关系分析的重要工具。
实际应用
在实际药物研发中,活性悬崖现象直接影响先导化合物的优化效率。ACNet数据集的应用能够帮助药剂师识别化学修饰中可能导致活性骤降的风险点,从而规避研发过程中的潜在失败。通过集成深度学习模型,该数据集可辅助预测分子对间的活性差异,加速高亲和力候选分子的筛选,提升药物设计流程的智能化水平,为制药企业提供数据驱动的决策支持。
衍生相关工作
ACNet的推出激发了后续一系列围绕活性悬崖预测的创新研究。例如,基于图神经网络的分子表示学习模型被广泛用于探索结构-活性关系的隐式规律;同时,针对数据不平衡和分布外泛化的算法改进也成为研究热点。这些工作不仅扩展了分子属性预测的边界,还推动了如域适应、少样本学习等机器学习前沿技术在药物发现领域的实际应用,形成了跨学科的技术融合趋势。
以上内容由遇见数据集搜集并总结生成



