five

KinDEL|药物发现数据集|机器学习数据集

收藏
arXiv2024-10-12 更新2024-10-15 收录
药物发现
机器学习
下载链接:
https://github.com/insitro/kindel
下载链接
链接失效反馈
资源简介:
KinDEL是由Insitro公司创建的一个大型DNA编码库数据集,专门用于激酶抑制剂的研究。该数据集包含超过8100万条小分子化合物,针对两种激酶靶点MAPK14和DDR1进行了筛选实验。数据集的创建过程包括DEL的合成、选择实验以及生物物理学验证。KinDEL旨在为机器学习社区提供丰富的监督数据,以开发用于药物发现中的小分子化学问题解决方法。
提供机构:
Insitro
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
KinDEL数据集的构建过程包括三个主要阶段:DEL合成、目标蛋白的选择实验以及生物物理验证实验。在DEL合成阶段,数据集构建了一个三合成子库,包含378个A位置合成子、1128个B位置合成子以及191个C位置合成子,通过顺序合成方法生成约8100万种独特的分子。选择实验阶段,将DEL与目标蛋白MAPK14或DDR1结合,通过多轮洗涤去除弱结合分子,并通过PCR扩增和测序获取DNA标签的计数数据。生物物理验证阶段,收集了部分分子的荧光偏振(FP)和表面等离子共振(SPR)数据,以验证模型的预测能力。
特点
KinDEL数据集的主要特点在于其大规模和公开可用性,涵盖了8100万种小分子,针对两种激酶靶点MAPK14和DDR1进行了筛选。数据集的高一致性跨实验重复性是其显著优势,确保了数据质量的可靠性。此外,数据集提供了丰富的生物物理验证数据,包括on-DNA和off-DNA的结合亲和力数据,这对于评估模型在实际药物候选分子筛选中的应用具有重要价值。
使用方法
KinDEL数据集可用于开发和验证预测激酶抑制剂结合亲和力的机器学习模型。研究者可以通过GitHub获取数据集和相关代码,使用这些数据进行模型训练和测试。数据集提供了两种数据分割策略:随机分割和二合成子分割,以评估模型的泛化能力。此外,数据集还包含了一个由生物物理验证数据组成的保留测试集,用于评估模型在实际应用中的表现。通过这些数据,研究者可以开发和优化用于药物发现的计算方法。
背景与挑战
背景概述
DNA编码库(DEL)作为一种高效的组合小分子库筛选工具,在药物发现领域中展现出巨大的潜力。DEL通过选择实验,能够实现高通量筛选,从而在药物发现过程中快速识别潜在的活性分子。然而,公开的DEL数据集的稀缺性限制了计算方法的发展。为了填补这一空白,Benson Chen等人于2024年创建了KinDEL数据集,这是首批公开的大型DEL数据集之一,专注于两种激酶抑制剂:丝裂原活化蛋白激酶14(MAPK14)和盘状结构域受体酪氨酸激酶1(DDR1)。该数据集的发布不仅为机器学习技术在DEL数据上的应用提供了丰富的监督数据,还通过提供生物物理实验数据,验证了模型的预测能力,从而推动了药物发现领域的研究进展。
当前挑战
尽管KinDEL数据集为DEL数据的分析提供了宝贵的资源,但其构建和应用过程中仍面临诸多挑战。首先,DEL合成和选择过程中固有的噪声和偏差,如PCR扩增过程中的不均匀性,增加了数据处理的复杂性。其次,DEL数据主要捕捉的是分子与DNA标签结合的事件,而实际药物筛选中关注的是无DNA标签的结合亲和力,这种差异要求模型具备良好的泛化能力。此外,DEL数据在生成过程中可能引入的合成噪声和偏差,以及实验验证数据的有限性,都限制了模型的预测精度和可靠性。这些挑战不仅需要开发新的计算模型来有效提取数据中的信号,还需要进一步的实验验证来确保模型的实际应用价值。
常用场景
经典使用场景
KinDEL数据集的经典应用场景在于利用DNA编码库(DEL)进行激酶抑制剂的高通量筛选。通过该数据集,研究者可以对大规模的小分子库进行筛选,以识别与特定激酶(如MAPK14和DDR1)具有高亲和力的化合物。这种筛选方法不仅高效,而且能够生成大量的监督化学数据,为后续的机器学习模型训练提供了丰富的数据资源。
衍生相关工作
基于KinDEL数据集,研究者们开发了多种机器学习模型,如随机森林、XGBoost、k-近邻算法和深度神经网络等,用于预测小分子的激酶抑制活性。特别是,Chen等人提出的DEL-Compose模型,通过利用分子指纹和图卷积网络,显著提升了预测模型的准确性和鲁棒性。这些衍生工作不仅推动了DEL数据在药物发现中的应用,也为其他领域的组合化学和高通量筛选提供了新的思路和方法。
数据集最近研究
最新研究方向
在药物发现领域,DNA编码库(DEL)技术因其高效筛选小分子库的能力而备受关注。最近的研究方向集中在利用DEL数据进行机器学习模型的开发,以提高命中分子的识别效率。特别是,结构化的概率模型因其能够处理DEL数据中的噪声和偏差而受到重视。这些模型不仅能够预测分子与目标蛋白的结合亲和力,还能在处理复杂的化学空间时表现出良好的泛化能力。此外,DEL数据在生成模型中的应用也逐渐成为研究热点,通过弱监督学习,这些模型能够探索更为复杂的化学结构,为药物发现中的先导优化步骤提供有力支持。
相关研究论文
  • 1
    KinDEL: DNA-Encoded Library Dataset for Kinase InhibitorsInsitro · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

全国兴趣点(POI)数据

  POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。  POI包含的信息及其衍生信息主要包含三个部分:

CnOpenData 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录