KinDEL

Name: KinDEL
Creator: Insitro
Published: 2024-10-12 00:03:58
License: 暂无描述

arXiv2024-10-12 更新2024-10-15 收录

下载链接：

https://github.com/insitro/kindel

下载链接

链接失效反馈

官方服务：

资源简介：

KinDEL是由Insitro公司创建的一个大型DNA编码库数据集，专门用于激酶抑制剂的研究。该数据集包含超过8100万条小分子化合物，针对两种激酶靶点MAPK14和DDR1进行了筛选实验。数据集的创建过程包括DEL的合成、选择实验以及生物物理学验证。KinDEL旨在为机器学习社区提供丰富的监督数据，以开发用于药物发现中的小分子化学问题解决方法。

KinDEL is a large DNA-encoded library (DEL) dataset created by Insitro, specifically designed for kinase inhibitor research. This dataset contains over 81 million small molecule compounds that have undergone screening assays against two kinase targets: MAPK14 and DDR1. The development process of KinDEL includes DEL synthesis, selection experiments, and biophysical validation. KinDEL aims to provide rich supervised data for the machine learning community to develop solutions for small molecule chemistry problems in drug discovery.

提供机构：

Insitro

创建时间：

2024-10-12

搜集汇总

数据集介绍

构建方式

KinDEL数据集的构建过程包括三个主要阶段：DEL合成、目标蛋白的选择实验以及生物物理验证实验。在DEL合成阶段，数据集构建了一个三合成子库，包含378个A位置合成子、1128个B位置合成子以及191个C位置合成子，通过顺序合成方法生成约8100万种独特的分子。选择实验阶段，将DEL与目标蛋白MAPK14或DDR1结合，通过多轮洗涤去除弱结合分子，并通过PCR扩增和测序获取DNA标签的计数数据。生物物理验证阶段，收集了部分分子的荧光偏振（FP）和表面等离子共振（SPR）数据，以验证模型的预测能力。

特点

KinDEL数据集的主要特点在于其大规模和公开可用性，涵盖了8100万种小分子，针对两种激酶靶点MAPK14和DDR1进行了筛选。数据集的高一致性跨实验重复性是其显著优势，确保了数据质量的可靠性。此外，数据集提供了丰富的生物物理验证数据，包括on-DNA和off-DNA的结合亲和力数据，这对于评估模型在实际药物候选分子筛选中的应用具有重要价值。

使用方法

KinDEL数据集可用于开发和验证预测激酶抑制剂结合亲和力的机器学习模型。研究者可以通过GitHub获取数据集和相关代码，使用这些数据进行模型训练和测试。数据集提供了两种数据分割策略：随机分割和二合成子分割，以评估模型的泛化能力。此外，数据集还包含了一个由生物物理验证数据组成的保留测试集，用于评估模型在实际应用中的表现。通过这些数据，研究者可以开发和优化用于药物发现的计算方法。

背景与挑战

背景概述

DNA编码库（DEL）作为一种高效的组合小分子库筛选工具，在药物发现领域中展现出巨大的潜力。DEL通过选择实验，能够实现高通量筛选，从而在药物发现过程中快速识别潜在的活性分子。然而，公开的DEL数据集的稀缺性限制了计算方法的发展。为了填补这一空白，Benson Chen等人于2024年创建了KinDEL数据集，这是首批公开的大型DEL数据集之一，专注于两种激酶抑制剂：丝裂原活化蛋白激酶14（MAPK14）和盘状结构域受体酪氨酸激酶1（DDR1）。该数据集的发布不仅为机器学习技术在DEL数据上的应用提供了丰富的监督数据，还通过提供生物物理实验数据，验证了模型的预测能力，从而推动了药物发现领域的研究进展。

当前挑战

尽管KinDEL数据集为DEL数据的分析提供了宝贵的资源，但其构建和应用过程中仍面临诸多挑战。首先，DEL合成和选择过程中固有的噪声和偏差，如PCR扩增过程中的不均匀性，增加了数据处理的复杂性。其次，DEL数据主要捕捉的是分子与DNA标签结合的事件，而实际药物筛选中关注的是无DNA标签的结合亲和力，这种差异要求模型具备良好的泛化能力。此外，DEL数据在生成过程中可能引入的合成噪声和偏差，以及实验验证数据的有限性，都限制了模型的预测精度和可靠性。这些挑战不仅需要开发新的计算模型来有效提取数据中的信号，还需要进一步的实验验证来确保模型的实际应用价值。

常用场景

经典使用场景

KinDEL数据集的经典应用场景在于利用DNA编码库（DEL）进行激酶抑制剂的高通量筛选。通过该数据集，研究者可以对大规模的小分子库进行筛选，以识别与特定激酶（如MAPK14和DDR1）具有高亲和力的化合物。这种筛选方法不仅高效，而且能够生成大量的监督化学数据，为后续的机器学习模型训练提供了丰富的数据资源。

衍生相关工作

基于KinDEL数据集，研究者们开发了多种机器学习模型，如随机森林、XGBoost、k-近邻算法和深度神经网络等，用于预测小分子的激酶抑制活性。特别是，Chen等人提出的DEL-Compose模型，通过利用分子指纹和图卷积网络，显著提升了预测模型的准确性和鲁棒性。这些衍生工作不仅推动了DEL数据在药物发现中的应用，也为其他领域的组合化学和高通量筛选提供了新的思路和方法。

数据集最近研究