five

KinDEL|药物发现数据集|机器学习数据集

收藏
arXiv2024-10-12 更新2024-10-15 收录
药物发现
机器学习
下载链接:
https://github.com/insitro/kindel
下载链接
链接失效反馈
资源简介:
KinDEL是由Insitro公司创建的一个大型DNA编码库数据集,专门用于激酶抑制剂的研究。该数据集包含超过8100万条小分子化合物,针对两种激酶靶点MAPK14和DDR1进行了筛选实验。数据集的创建过程包括DEL的合成、选择实验以及生物物理学验证。KinDEL旨在为机器学习社区提供丰富的监督数据,以开发用于药物发现中的小分子化学问题解决方法。
提供机构:
Insitro
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
KinDEL数据集的构建过程包括三个主要阶段:DEL合成、目标蛋白的选择实验以及生物物理验证实验。在DEL合成阶段,数据集构建了一个三合成子库,包含378个A位置合成子、1128个B位置合成子以及191个C位置合成子,通过顺序合成方法生成约8100万种独特的分子。选择实验阶段,将DEL与目标蛋白MAPK14或DDR1结合,通过多轮洗涤去除弱结合分子,并通过PCR扩增和测序获取DNA标签的计数数据。生物物理验证阶段,收集了部分分子的荧光偏振(FP)和表面等离子共振(SPR)数据,以验证模型的预测能力。
特点
KinDEL数据集的主要特点在于其大规模和公开可用性,涵盖了8100万种小分子,针对两种激酶靶点MAPK14和DDR1进行了筛选。数据集的高一致性跨实验重复性是其显著优势,确保了数据质量的可靠性。此外,数据集提供了丰富的生物物理验证数据,包括on-DNA和off-DNA的结合亲和力数据,这对于评估模型在实际药物候选分子筛选中的应用具有重要价值。
使用方法
KinDEL数据集可用于开发和验证预测激酶抑制剂结合亲和力的机器学习模型。研究者可以通过GitHub获取数据集和相关代码,使用这些数据进行模型训练和测试。数据集提供了两种数据分割策略:随机分割和二合成子分割,以评估模型的泛化能力。此外,数据集还包含了一个由生物物理验证数据组成的保留测试集,用于评估模型在实际应用中的表现。通过这些数据,研究者可以开发和优化用于药物发现的计算方法。
背景与挑战
背景概述
DNA编码库(DEL)作为一种高效的组合小分子库筛选工具,在药物发现领域中展现出巨大的潜力。DEL通过选择实验,能够实现高通量筛选,从而在药物发现过程中快速识别潜在的活性分子。然而,公开的DEL数据集的稀缺性限制了计算方法的发展。为了填补这一空白,Benson Chen等人于2024年创建了KinDEL数据集,这是首批公开的大型DEL数据集之一,专注于两种激酶抑制剂:丝裂原活化蛋白激酶14(MAPK14)和盘状结构域受体酪氨酸激酶1(DDR1)。该数据集的发布不仅为机器学习技术在DEL数据上的应用提供了丰富的监督数据,还通过提供生物物理实验数据,验证了模型的预测能力,从而推动了药物发现领域的研究进展。
当前挑战
尽管KinDEL数据集为DEL数据的分析提供了宝贵的资源,但其构建和应用过程中仍面临诸多挑战。首先,DEL合成和选择过程中固有的噪声和偏差,如PCR扩增过程中的不均匀性,增加了数据处理的复杂性。其次,DEL数据主要捕捉的是分子与DNA标签结合的事件,而实际药物筛选中关注的是无DNA标签的结合亲和力,这种差异要求模型具备良好的泛化能力。此外,DEL数据在生成过程中可能引入的合成噪声和偏差,以及实验验证数据的有限性,都限制了模型的预测精度和可靠性。这些挑战不仅需要开发新的计算模型来有效提取数据中的信号,还需要进一步的实验验证来确保模型的实际应用价值。
常用场景
经典使用场景
KinDEL数据集的经典应用场景在于利用DNA编码库(DEL)进行激酶抑制剂的高通量筛选。通过该数据集,研究者可以对大规模的小分子库进行筛选,以识别与特定激酶(如MAPK14和DDR1)具有高亲和力的化合物。这种筛选方法不仅高效,而且能够生成大量的监督化学数据,为后续的机器学习模型训练提供了丰富的数据资源。
衍生相关工作
基于KinDEL数据集,研究者们开发了多种机器学习模型,如随机森林、XGBoost、k-近邻算法和深度神经网络等,用于预测小分子的激酶抑制活性。特别是,Chen等人提出的DEL-Compose模型,通过利用分子指纹和图卷积网络,显著提升了预测模型的准确性和鲁棒性。这些衍生工作不仅推动了DEL数据在药物发现中的应用,也为其他领域的组合化学和高通量筛选提供了新的思路和方法。
数据集最近研究
最新研究方向
在药物发现领域,DNA编码库(DEL)技术因其高效筛选小分子库的能力而备受关注。最近的研究方向集中在利用DEL数据进行机器学习模型的开发,以提高命中分子的识别效率。特别是,结构化的概率模型因其能够处理DEL数据中的噪声和偏差而受到重视。这些模型不仅能够预测分子与目标蛋白的结合亲和力,还能在处理复杂的化学空间时表现出良好的泛化能力。此外,DEL数据在生成模型中的应用也逐渐成为研究热点,通过弱监督学习,这些模型能够探索更为复杂的化学结构,为药物发现中的先导优化步骤提供有力支持。
相关研究论文
  • 1
    KinDEL: DNA-Encoded Library Dataset for Kinase InhibitorsInsitro · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

paris2024-data

包含2024年巴黎奥运会和残奥会的数据集,包括奖牌列表、获奖运动员信息、国家和事件的详细数据。

github 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录