KinDEL

github2024-10-08 更新2024-10-19 收录

下载链接：

https://github.com/insitro/kindel

下载链接

链接失效反馈

官方服务：

资源简介：

KinDEL是一个大型DNA编码库数据集，包含两个激酶目标（DDR1和MAPK14），用于基准测试机器学习模型。数据集包括分子结构信息和实验Kd测量值，存储在AWS S3中。

KinDEL is a large-scale DNA-encoded library dataset that includes two kinase targets, DDR1 and MAPK14, for benchmarking machine learning models. The dataset contains molecular structural information and experimental Kd measurement values, and is stored on AWS S3.

创建时间：

2024-10-05

原始信息汇总

KinDEL: DNA-Encoded Library Dataset For Kinase Inhibitors

数据集概述

KinDEL是一个包含两个激酶靶点（DDR1和MAPK14）的大型DNA编码库数据集，用于基准测试机器学习模型。

数据集位置

所有数据集存储在AWS S3中，URL为：s3://kin-del-2024/data。

数据集类型

训练数据集：存储在{target}_1M.parquet文件中，包含用于训练ML模型的前1M个分子。
数据分割：存储在splits/{target}_{random/disynthon}.parquet文件中。
测试数据集：存储在heldout/{target}_{on/off}dna.csv文件中，包含Kd测量值。

数据结构

所有数据集文件包含以下列：

smiles：分子的SMILES表示。
molecule_hash：从合成子构建的分子哈希，唯一标识分子。
smiles_a：合成子A的SMILES。
smiles_b：合成子B的SMILES。
smiles_c：合成子C的SMILES。

额外列：

kd：实验Kd测量值。
seq_target_1, seq_target_2, seq_target_3：分子在目标上的序列计数（三重复）。
seq_matrix_1, seq_matrix_2, seq_matrix_3：分子在对照上的序列计数（三重复）。
seq_load：分子的预填充。

数据加载

训练数据： python from kindel.utils.data import get_training_data df_train, df_valid, df_test = get_training_data(target, split_index=split_index)
测试数据： python from kindel.utils.data import get_testing_data data = get_testing_data(target, in_library=True) print(data[on]) print(data[off])
完整数据集下载： python from kindel.utils.data import download_kindel df = download_kindel(target)

搜集汇总

数据集介绍

构建方式

KinDEL数据集的构建基于DNA编码库技术，专注于激酶抑制剂的筛选。该数据集包含两个激酶靶点（DDR1和MAPK14），通过大规模的DNA编码库筛选，收集了大量分子数据。这些数据经过精细处理，形成了用于机器学习模型基准测试的高质量数据集。数据集的构建过程中，采用了先进的分子筛选和数据处理技术，确保了数据的准确性和可靠性。

特点

KinDEL数据集的主要特点在于其大规模和多样性。该数据集不仅包含了大量的分子数据，还提供了详细的分子结构信息，如SMILES表示和分子哈希。此外，数据集还包含了实验测量的Kd值，为模型的训练和评估提供了可靠的依据。数据集的多样性体现在其涵盖了不同的分子来源和结构类型，使得模型能够更好地泛化到未见过的数据。

使用方法

使用KinDEL数据集进行模型训练和评估时，首先需要通过指定的命令行工具安装相关依赖并激活环境。随后，可以通过提供的Python脚本加载训练和测试数据，进行模型的训练和验证。数据集的加载和处理均通过Python代码实现，用户可以根据需要选择不同的数据分割方式和模型类型。最终，通过收集模型性能结果，用户可以评估模型的表现并进行进一步的优化。

背景与挑战

背景概述

KinDEL数据集是一个大规模的DNA编码库数据集，专注于激酶抑制剂的研究。该数据集由两个主要的激酶靶点（DDR1和MAPK14）组成，旨在为机器学习模型的基准测试提供丰富的数据资源。KinDEL数据集的创建旨在解决激酶抑制剂筛选中的关键问题，通过提供高质量的DNA编码分子数据，支持研究人员开发和优化预测模型。该数据集的发布标志着在药物发现领域中，利用大数据和机器学习技术进行高效筛选的重要进展。

当前挑战

KinDEL数据集在构建过程中面临了多个挑战。首先，数据集的构建需要处理大量的DNA编码分子，确保每个分子的唯一性和准确性。其次，激酶抑制剂的筛选过程中，如何有效地将实验数据与机器学习模型结合，以提高预测的准确性和可靠性，是一个重要的技术难题。此外，数据集的分布式存储和访问，特别是在AWS S3上的存储，需要确保数据的高效检索和安全性。最后，数据集的多样性和代表性问题，如何确保训练数据和测试数据之间的平衡，以避免模型过拟合，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

KinDEL数据集在药物发现领域中被广泛用于机器学习模型的基准测试，特别是针对激酶抑制剂的筛选。通过提供两个激酶目标（DDR1和MAPK14）的DNA编码库数据，研究人员可以训练和评估各种机器学习模型，如XGBoost、随机森林、KNN、DNN、GIN和COMPOSE。这些模型在训练后可以用于预测新化合物的活性，从而加速药物发现过程。

衍生相关工作

基于KinDEL数据集，许多相关研究工作得以开展。例如，有研究利用该数据集开发了新的分子表示方法，以提高机器学习模型的预测性能。此外，KinDEL还启发了针对特定激酶的深度学习模型研究，这些模型在药物发现和优化中展现出显著优势。这些衍生工作不仅丰富了数据集的应用场景，还推动了相关领域的技术进步。

数据集最近研究