钆贝葡胺结构的小分子渗透性预测评价数据
收藏浙江省数据知识产权登记平台2026-04-28 更新2026-04-29 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8439043
下载链接
链接失效反馈官方服务:
资源简介:
造影剂因分子量大(通常500~1500 g/mol)、极性表面积高(TPSA普遍超过140 Ų),整体理化性质处于"类药性边界"区域,远超传统Lipinski五规则适用范围,通用ADMET预测工具对此类分子的渗透性预测精度严重不足。细胞膜渗透性是限制造影剂口服吸收及组织分布的关键瓶颈,然而现有公开Caco-2渗透性数据库对造影剂母核结构及其药典法定杂质的覆盖极为有限,导致研发团队在早期候选物筛选阶段缺乏可靠的渗透性预测依据,只能依赖耗时耗力的体外Caco-2细胞实验逐一评估。
本数据集以公开Caco-2渗透性数据集(caco2_wang.csv)为基础,专项补充纳入钆贝葡胺母核原料药及主要国家药典收载的法定杂质渗透性数据,构建面向该特定化学空间的专属训练数据集,训练图卷积神经网络(GCN)预测模型,实现对钆贝葡胺结构域内候选分子渗透性的高精度预测。所产生的预测评价数据可直接用于候选化合物高通量虚拟筛选、先导化合物结构优化、合成杂质渗透性风险评估及新药申报渗透性评估的辅助支撑,填补了现有通用数据集在造影剂专属结构域预测能力上的空白,相关模型及预测数据也可授权给其他医学影像或生物材料企业1、加工前的数据说明
以公开Caco-2渗透性数据集(caco2_wang.csv)为基础训练数据,补充纳入钆贝葡胺母核原料药及主要国家药典收载的法定杂质渗透性数据,共同构成本数据集训练集。原始数据包含化合物名称及SMILES分子结构字符串,均来源于公开数据库及药典文献,不涉及个人数据,无需匿名化或去标识化处理。
2、处理规则:对每条记录的SMILES字符串,通过RDKit模块计算MW(相对分子量)、LogP(脂水分配系数对数值)、TPSA(拓扑极性表面积)、HBD(氢键供体数)、HBA(氢键受体数)、RotBonds(可旋转键数)、QED(定量类药性评分)七项理化参数。以ConvMolFeaturizer将SMILES转换为图结构输入特征,以logPapp值(归一化处理)为预测目标,训练图卷积神经网络(GCN)模型,输出预测LogPapp。依据阈值规则生成渗透性分级(>−4.7为高,[−5.2,−4.7]为中,<−5.2为低)。依据TPSA≥140 Ų标记"高极性"、MW≥800 g/mol标记"大分子"、LogP≤−3标记"强亲水"的多条件规则自动生成备注字段,不满足标记的条件不再备注,上述条件全部不满足则标记"性质适中",多条件同时满足时以";"分隔组合标记。
3、数据内容描述:模型直接输出的渗透性预测值为连续型浮点数(单位:log cm/s)。为便于成药性评估与决策,将预测值进一步转化为分类标记(对应表格列:渗透性分级),规则如下:若预测LogPapp > -4.7,标记为 “高 (High)”,提示该分子极易穿透细胞膜,口服吸收潜力高或易于进入靶组织;若预测LogPapp 在 [-5.2, -4.7] 范围内,标记为 “中 (Medium)”,提示分子跨膜能力尚可,可能需要辅以制剂技术或结构微调;若预测LogPapp < -5.2,标记为 “低 (Low)”,提示该分子难以穿透生物膜,存在较高的吸收障碍。
提供机构:
浙江司太立制药股份有限公司
创建时间:
2025-12-02
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集针对钆贝葡胺造影剂结构域的小分子渗透性预测,包含了1847条记录,涵盖化合物名称、SMILES、理化参数(如MW、LogP、TPSA等)以及基于图卷积神经网络的预测渗透性值和分级。数据集填补了通用工具对造影剂分子预测精度的不足,可直接用于候选化合物筛选、结构优化和风险评估。
以上内容由遇见数据集搜集并总结生成



