five

KinDEL|药物发现数据集|机器学习数据集

收藏
arXiv2024-10-12 更新2024-10-15 收录
药物发现
机器学习
下载链接:
https://github.com/insitro/kindel
下载链接
链接失效反馈
资源简介:
KinDEL是由Insitro公司创建的一个大型DNA编码库数据集,专门用于激酶抑制剂的研究。该数据集包含超过8100万条小分子化合物,针对两种激酶靶点MAPK14和DDR1进行了筛选实验。数据集的创建过程包括DEL的合成、选择实验以及生物物理学验证。KinDEL旨在为机器学习社区提供丰富的监督数据,以开发用于药物发现中的小分子化学问题解决方法。
提供机构:
Insitro
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
KinDEL数据集的构建过程包括三个主要阶段:DEL合成、目标蛋白的选择实验以及生物物理验证实验。在DEL合成阶段,数据集构建了一个三合成子库,包含378个A位置合成子、1128个B位置合成子以及191个C位置合成子,通过顺序合成方法生成约8100万种独特的分子。选择实验阶段,将DEL与目标蛋白MAPK14或DDR1结合,通过多轮洗涤去除弱结合分子,并通过PCR扩增和测序获取DNA标签的计数数据。生物物理验证阶段,收集了部分分子的荧光偏振(FP)和表面等离子共振(SPR)数据,以验证模型的预测能力。
特点
KinDEL数据集的主要特点在于其大规模和公开可用性,涵盖了8100万种小分子,针对两种激酶靶点MAPK14和DDR1进行了筛选。数据集的高一致性跨实验重复性是其显著优势,确保了数据质量的可靠性。此外,数据集提供了丰富的生物物理验证数据,包括on-DNA和off-DNA的结合亲和力数据,这对于评估模型在实际药物候选分子筛选中的应用具有重要价值。
使用方法
KinDEL数据集可用于开发和验证预测激酶抑制剂结合亲和力的机器学习模型。研究者可以通过GitHub获取数据集和相关代码,使用这些数据进行模型训练和测试。数据集提供了两种数据分割策略:随机分割和二合成子分割,以评估模型的泛化能力。此外,数据集还包含了一个由生物物理验证数据组成的保留测试集,用于评估模型在实际应用中的表现。通过这些数据,研究者可以开发和优化用于药物发现的计算方法。
背景与挑战
背景概述
DNA编码库(DEL)作为一种高效的组合小分子库筛选工具,在药物发现领域中展现出巨大的潜力。DEL通过选择实验,能够实现高通量筛选,从而在药物发现过程中快速识别潜在的活性分子。然而,公开的DEL数据集的稀缺性限制了计算方法的发展。为了填补这一空白,Benson Chen等人于2024年创建了KinDEL数据集,这是首批公开的大型DEL数据集之一,专注于两种激酶抑制剂:丝裂原活化蛋白激酶14(MAPK14)和盘状结构域受体酪氨酸激酶1(DDR1)。该数据集的发布不仅为机器学习技术在DEL数据上的应用提供了丰富的监督数据,还通过提供生物物理实验数据,验证了模型的预测能力,从而推动了药物发现领域的研究进展。
当前挑战
尽管KinDEL数据集为DEL数据的分析提供了宝贵的资源,但其构建和应用过程中仍面临诸多挑战。首先,DEL合成和选择过程中固有的噪声和偏差,如PCR扩增过程中的不均匀性,增加了数据处理的复杂性。其次,DEL数据主要捕捉的是分子与DNA标签结合的事件,而实际药物筛选中关注的是无DNA标签的结合亲和力,这种差异要求模型具备良好的泛化能力。此外,DEL数据在生成过程中可能引入的合成噪声和偏差,以及实验验证数据的有限性,都限制了模型的预测精度和可靠性。这些挑战不仅需要开发新的计算模型来有效提取数据中的信号,还需要进一步的实验验证来确保模型的实际应用价值。
常用场景
经典使用场景
KinDEL数据集的经典应用场景在于利用DNA编码库(DEL)进行激酶抑制剂的高通量筛选。通过该数据集,研究者可以对大规模的小分子库进行筛选,以识别与特定激酶(如MAPK14和DDR1)具有高亲和力的化合物。这种筛选方法不仅高效,而且能够生成大量的监督化学数据,为后续的机器学习模型训练提供了丰富的数据资源。
衍生相关工作
基于KinDEL数据集,研究者们开发了多种机器学习模型,如随机森林、XGBoost、k-近邻算法和深度神经网络等,用于预测小分子的激酶抑制活性。特别是,Chen等人提出的DEL-Compose模型,通过利用分子指纹和图卷积网络,显著提升了预测模型的准确性和鲁棒性。这些衍生工作不仅推动了DEL数据在药物发现中的应用,也为其他领域的组合化学和高通量筛选提供了新的思路和方法。
数据集最近研究
最新研究方向
在药物发现领域,DNA编码库(DEL)技术因其高效筛选小分子库的能力而备受关注。最近的研究方向集中在利用DEL数据进行机器学习模型的开发,以提高命中分子的识别效率。特别是,结构化的概率模型因其能够处理DEL数据中的噪声和偏差而受到重视。这些模型不仅能够预测分子与目标蛋白的结合亲和力,还能在处理复杂的化学空间时表现出良好的泛化能力。此外,DEL数据在生成模型中的应用也逐渐成为研究热点,通过弱监督学习,这些模型能够探索更为复杂的化学结构,为药物发现中的先导优化步骤提供有力支持。
相关研究论文
  • 1
    KinDEL: DNA-Encoded Library Dataset for Kinase InhibitorsInsitro · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题