five

碘海醇结构的小分子渗透性预测评价数据

收藏
浙江省数据知识产权登记平台2026-05-11 更新2026-05-16 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8443242
下载链接
链接失效反馈
官方服务:
资源简介:
本数据的核心应用在于加速新型造影剂及类似大分子量、多羟基分子的生物利用度与跨膜运输研究。 企业内部应用:因造影剂通常具有较大的分子量和较高的极性,其细胞膜渗透性往往是限制其口服吸收或组织分布的关键瓶颈。在药物发现的早期阶段,研发团队可利用此数据训练的深度学习模型,对海量虚拟候选化合物进行高通量虚拟筛选(HTVS),在无需进行繁琐的体外 Caco-2 细胞实验的前提下,快速预测其表观渗透系数(Papp)。这能有效剔除透膜性极差的分子,集中资源优化具有适当生物膜透过性的高潜力候选物,从而显著缩短新型造影剂的药代动力学(PK)优化周期并降低临床前开发风险。此外,它还可用于指导已有先导化合物的亲脂性修饰,以数据驱动的方式定向平衡其水溶性与渗透性。 外部及行业应用:本数据集可作为化学信息学领域针对“类药性边界分子”的专业基准,用于开发和验证针对大极性表面积(TPSA)分子的新预测算法。同时,训练好的模型可以作为 ADMET 评估工具,授权给其他医学影像或生物材料企业,帮助其建立快速、高精度的分子生物药剂学评估能力,推动整个造影剂行业的数字化研发进程。本数据基于图卷积神经网络(GCN)算法构建了分子渗透性预测模型,该模型通过学习分子拓扑结构与渗透性之间的内在规律,实现对全新分子结构渗透性的预测。 1. 数据收集与特征加工:收集现有已知造影剂及类药化合物的分子结构(以 SMILES 字符串形式表示)、实验测定的 Caco-2 细胞表观渗透系数对数值(logPapp),并采用基于图论的分子图作为特征表示,用于深度学习预测模型的构建。 2. 特征工程与模型构建(1)特征工程:针对每个类药性边界分子的 SMILES 字符串(SMILES),通过 DeepChem 的 ConvMolFeaturizer 算法将其转换为包含原子特征向量和邻接列表的图结构数据,作为模型的输入特征矩阵 X;以对应的 logPapp 实验值(经过归一化处理)作为模型的预测目标(输出变量 Y)。(2)模型构建:采用图卷积网络算法构建预测模型,核心参数与结构如下:网络架构: 包含多层图卷积层以提取局部化学环境特征,以及图池化层以聚合全局分子特征;关键超参数: Dropout 比率设为 0.2(防止过拟合,增强模型对新结构的泛化能力),批处理大小设为 32(平衡计算效率与梯度稳定性),并使用 Pearson R2 作为训练监控指标。(3)预测规则:模型训练完成后,神经网络权重被固定。对于新分子,其渗透性预测值(预测LogPapp)通过如下方式计算:渗透性预测值 = 输入分子的图特征经过多层图卷积与全连接层的非线性映射输出 times 归一化因子的逆变换。这一过程综合考虑了分子的极性表面积(TPSA)、分子大小(MW)及柔性(RotBonds)对穿膜能力的影响。 3. 预测结果的分类判定规则:模型直接输出的渗透性预测值为连续型浮点数(单位:log cm/s)。为便于成药性评估与决策,将预测值进一步转化为分类标记(对应表格列:渗透性分级),规则如下:若预测LogPapp > -4.7,标记为 “高 (High)”,提示该分子极易穿透细胞膜,口服吸收潜力高或易于进入靶组织;若预测LogPapp 在 [-5.2, -4.7] 范围内,标记为 “中 (Medium)”,提示分子跨膜能力尚可,可能需要辅以制剂技术或结构微调;若预测LogPapp < -5.2,标记为 “低 (Low)”,提示该分子难以穿透生物膜,存在较高的吸收障碍。
提供机构:
浙江司太立制药股份有限公司
创建时间:
2025-12-02
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含1175条针对碘海醇结构的小分子渗透性预测评价数据,包括化合物名称、SMILES、分子量、LogP等化学特征及预测的渗透性分级。数据基于图卷积神经网络算法构建预测模型,主要应用于加速新型造影剂及类似大分子量、多羟基分子的生物利用度与跨膜运输研究,支持早期药物发现中的高通量虚拟筛选和渗透性评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作