five

钆布醇结构的小分子渗透性预测评价数据

收藏
浙江省数据知识产权登记平台2026-05-19 更新2026-05-20 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8446199
下载链接
链接失效反馈
官方服务:
资源简介:
造影剂因分子量大(通常500~1500 g/mol)、极性表面积高(TPSA普遍超过140 Ų),整体理化性质远超传统Lipinski五规则适用范围,通用ADMET预测工具对此类分子的渗透性预测精度严重不足。细胞膜渗透性是限制造影剂口服吸收及组织分布的关键瓶颈,然而现有公开Caco-2渗透性数据库对造影剂母核结构及其药典法定杂质的覆盖极为有限,导致研发团队在早期筛选阶段只能依赖耗时耗力的体外Caco-2细胞实验逐一评估。本数据集以公开Caco-2渗透性数据集(caco2_wang.csv)为基础,专项补充纳入钆布醇母核原料药及主要国家药典收载的法定杂质渗透性数据,构建面向该特定化学空间的专属训练数据集,训练图卷积神经网络(GCN)预测模型,实现对钆布醇结构域内候选分子渗透性的高精度预测。预测评价数据可直接用于候选化合物虚拟筛选与结构优化、合成杂质渗透性风险评估及新药申报辅助支撑,填补现有通用数据集在造影剂专属结构域的预测空白,相关模型及数据亦可授权给其他医学影像或生物材料企业。本数据基于图卷积神经网络(GCN)算法,以钆布醇大环型钆螯合物结构域为对象,构建专属渗透性预测模型,通过学习该结构域分子拓扑与渗透性间的规律,实现对钆布醇母核及药典法定杂质等新分子渗透性的预测。1.数据收集与特征加工:以公开Caco-2渗透性数据集为基础,专项补充钆布醇母核及各国药典收载的法定杂质(含大环配体开环降解产物、配位中间体等)的化合物名称、分子结构(SMILES字符串)与实验logPapp值,该补充数据仅覆盖钆布醇大环多氮多羧酸钆螯合物化学空间,与线性开链型DTPA螯合物或碘代苯环型造影剂杂质空间不重叠。对每条SMILES通过RDKit计算MW(分子量)、LogP(脂水分配系数)、TPSA(极性表面积)、HBD(氢键供体数)、HBA(氢键受体数)、RotBonds(可旋转键数)、QED(类药性评分)七项理化参数并记录为数据字段。2.特征工程与模型构建(1)特征工程:通过DeepChem的ConvMolFeaturizer将SMILES转换为含原子特征向量和邻接列表的图结构数据作为输入X;以logPapp实验值(均值-标准差归一化)作为预测目标Y,按8:1:1划分训练/验证/测试集。(2)模型构建:图卷积网络含多层图卷积层提取局部化学环境特征及图池化层聚合全局分子特征;Dropout=0.2,训练50个epoch,Pearson R²为监控指标。钆布醇结构域图特征呈大环刚性骨架、多氮配位节点,与线性开链型DTPA螯合物或碘代苯环型骨架在特征空间分布显著不同,需独立训练模型权重。(3)预测规则:权重固定后,新分子SMILES转图特征输入模型,经图卷积与全连接层非线性映射获取标准化预测值,再经归一化逆变换还原为预测LogPapp。3.分类判定规则:预测LogPapp>-4.7标记为"高(High)",易穿透细胞膜,组织分布潜力较高;在[-5.2,-4.7]范围内标记为"中(Medium)",跨膜能力尚可,可能需辅以制剂优化;<-5.2标记为"低(Low)",难穿透生物膜,存在较高跨膜障碍。4.备注字段规则:依据TPSA≥140Ų标记"高极性"、MW≥800g/mol标记"大分子"、LogP≤-3标记"强亲水",不满足条件不备注,全不满足标记"性质适中",多条件满足以";"分隔组合,用于快速定位渗透性受限的主要理化原因,指导结构优化方向。
提供机构:
浙江司太立制药股份有限公司
创建时间:
2025-12-02
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集聚焦钆布醇结构域的小分子渗透性预测,基于公开Caco-2渗透性数据并专项补充钆布醇母核及药典法定杂质的分子结构与实验渗透值,共4121条数据。通过图卷积神经网络(GCN)算法建模分子拓扑与渗透性的关系,可预测候选分子的表观渗透系数并划分高、中、低三级,用于造影剂候选化合物的虚拟筛选、杂质风险评估及结构优化,填补了通用数据集在造影剂专属化学空间的预测空白。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作