ChEMBL ASK1 Fibrosis Dataset

github2026-02-02 更新2026-02-03 收录

下载链接：

https://github.com/wasitkrish/ChEMBL-ASK1-Fibrosis

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库提供了一个完全可复现的流程，用于从ChEMBL中提取、清理和整理针对ASK1（MAP3K5）的生物活性数据，ASK1是一种与纤维化疾病密切相关的激酶。最终的数据集适合机器学习，可用于QSAR建模、化学信息学和AI驱动的药物发现。

This repository provides a fully reproducible workflow for extracting, cleaning, and curating bioactivity data targeting ASK1 (MAP3K5), a kinase closely associated with fibrotic diseases. The final dataset is machine-learning-ready and applicable to QSAR modeling, cheminformatics, and AI-driven drug discovery.

创建时间：

2026-02-01

原始信息汇总

ChEMBL ASK1 Fibrosis 数据集概述

数据集基本信息

数据集名称：ChEMBL ASK1 Fibrosis Dataset
数据来源：ChEMBL
数据领域：化学信息学
主要任务：药物发现
许可证：CC BY 4.0

数据集内容与目的

核心内容：提供针对ASK1（MAP3K5）激酶的生物活性数据，该激酶与纤维化疾病密切相关。
主要目的：为纤维化靶向药物发现、计算化学和机器学习研究提供可重复、经过清洗和整理的即用型数据集。
数据状态：数据集为机器学习就绪状态，适用于QSAR建模、化学信息学和AI驱动的药物发现。

数据集获取与使用

Hugging Face数据集地址：https://huggingface.co/datasets/wasitkrish/ChEMBL-ASK1-Fibrosis
本地获取方式：可通过GitHub仓库（https://github.com/wasitkrish/ChEMBL-ASK1-Fibrosis）中的可复现Jupyter Notebook流程提取、清洗和整理数据。
数据格式：CSV / Parquet
集成支持：支持与Hugging Face Datasets无缝集成。

技术栈与项目结构

编程语言：Python
主要库：pandas, numpy, chembl-webresource-client
项目结构：
- notebooks/ASK1_dataset.ipynb：ChEMBL数据提取与处理流程
- data/ASK1_dataset.csv：最终整理的数据集
- requirements.txt：Python依赖项
- LICENSE：许可证文件
- README.md：项目文档

潜在机器学习任务

生物活性回归（IC50 / Ki预测）
活性与非活性化合物分类
基于SMILES的深度学习模型
经典QSAR建模
图神经网络（未来扩展方向）

建议的数据集扩展方向

分子描述符计算（使用RDKit）
基于骨架的数据分割
外部验证数据集
跨相关激酶的多任务学习

免责声明

该数据集仅用于研究和教育目的，不构成医疗、制药或临床建议。

搜集汇总

数据集介绍

构建方式

在药物发现的计算化学领域，构建高质量生物活性数据集是推动靶向治疗研究的关键。ChEMBL ASK1 Fibrosis Dataset通过一个完全可复现的流程，从ChEMBL数据库中提取针对ASK1激酶的生物活性数据。该流程利用chembl-webresource-client等Python库进行数据抓取，随后经过严格的过滤、清洗和标准化处理，确保数据的准确性与一致性。最终生成的结构化数据集以CSV或Parquet格式存储，为后续的机器学习建模奠定了可靠基础。

特点

该数据集聚焦于ASK1激酶，该激酶在肝纤维化、肺纤维化等疾病进程中扮演核心角色，使其成为重要的治疗靶点。数据集经过精心整理，具备机器学习就绪的特性，包含化合物的生物活性值如IC50或Ki，适用于定量构效关系建模和深度学习任务。其结构化设计支持与Hugging Face平台无缝集成，便于研究者直接加载和使用，同时数据遵循CC BY 4.0许可，确保了开放性和可访问性。

使用方法

研究者可通过克隆GitHub仓库并运行Jupyter笔记本复现整个数据处理流程，或直接从Hugging Face加载预处理好的数据集。使用Python的datasets库，只需简单调用load_dataset函数即可获取数据，进而开展生物活性回归、化合物分类等机器学习任务。数据集还支持扩展计算分子描述符或构建图神经网络模型，为纤维化药物发现研究提供灵活且强大的计算资源。

背景与挑战

背景概述

在药物发现与化学信息学领域，针对特定疾病靶点的生物活性数据是推动计算模型发展的关键资源。ChEMBL ASK1 Fibrosis Dataset 由研究人员 Krish Singh 基于 ChEMBL 数据库构建，聚焦于凋亡信号调节激酶1（ASK1/MAP3K5）这一与肝纤维化、肺纤维化及肾纤维化等疾病进程密切相关的激酶靶点。该数据集旨在为纤维化疾病的治疗提供高质量的机器学习就绪数据，支持定量构效关系建模与人工智能驱动的药物筛选，自发布以来已成为该领域重要的基准数据集之一。

当前挑战

该数据集致力于解决纤维化疾病药物发现中ASK1抑制剂生物活性预测的挑战，包括化合物活性分类与IC50/Ki值回归等复杂任务。在构建过程中，面临从大规模ChEMBL数据库中精确提取与清洗ASK1相关数据的挑战，需确保数据的可重复性与一致性，同时处理生物测定数据的异质性，并转化为适合机器学习模型的结构化格式，以支撑稳健的预测模型开发。

常用场景

经典使用场景

在计算药物发现领域，ChEMBL ASK1 Fibrosis Dataset 为研究人员提供了一个标准化的生物活性数据平台，专门针对ASK1激酶抑制剂。该数据集最经典的使用场景在于支持定量构效关系建模和机器学习驱动的虚拟筛选，通过整合化学结构与生物活性指标，如IC50和Ki值，使得科学家能够高效预测和优化候选化合物的抗纤维化潜力。其结构化的数据格式便于直接应用于各种算法框架，加速了从数据到模型的转化过程。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于深度学习的生物活性预测模型和图形神经网络在药物发现中的应用。例如，研究人员利用其结构化数据开发了SMILES序列编码的回归算法，用于精确估算化合物抑制活性。这些工作不仅扩展了计算化学方法学，还为纤维化靶点研究设立了新基准，激励了后续多任务学习与跨靶点分析的相关探索。

数据集最近研究