maomlab/HLM_RLM
收藏Hugging Face2025-06-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/maomlab/HLM_RLM
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含人类和大鼠肝脏微粒体稳定性数据,来源于ChEMBL生物活性数据库。数据集经过清洗和重组,分为训练集、测试集和外部验证集。主要特征包括化合物的ID、Smiles表示和稳定性分类标签(0表示不稳定,1表示稳定)。此外,数据集还包含一个市场药物配置,用于评估模型的预测能力。
This dataset contains human and rat liver microsomal stability data, sourced from the ChEMBL bioactivity database. The dataset has been sanitized and reorganized, divided into training, test, and external validation sets. The main features include compound IDs, Smiles representations, and stability classification labels (0 for unstable, 1 for stable). Additionally, the dataset includes a marketed drug configuration for evaluating the predictive power of models.
提供机构:
maomlab
原始信息汇总
数据集概述
数据集名称
- Human & Rat Liver Microsomal Stability
数据集描述
- 该数据集用于评估化合物在人类肝脏微粒体(HLM)和鼠肝脏微粒体(RLM)中的稳定性。
- 数据集包含对化合物稳定性的分类,分为稳定和不稳定两类。
数据集组成
- HLM数据集:包含5902个化合物,其中3799个(64%)被分类为稳定,2103个(36%)被分类为不稳定。
- RLM数据集:包含3108个化合物,其中1542个(49.6%)被分类为稳定,1566个(50.4%)被分类为不稳定。
数据集配置
-
HLM配置:
- 数据文件:
- 训练集:HLM/train.csv
- 测试集:HLM/test.csv
- 外部集:HLM/external.csv
- 特征:
- ChEMBL ID (source)
- IUPAC Names
- Smiles
- Class
- Dataset
- 数据集大小:
- 训练集:4771个样本,190968字节
- 测试集:1131个样本,45368字节
- 外部集:111个样本,4568字节
- 数据文件:
-
RLM配置:
- 数据文件:
- 训练集:RLM/train.csv
- 测试集:RLM/test.csv
- 外部集:RLM/external.csv
- 特征:
- ChEMBL ID (source)
- IUPAC Names
- Smiles
- Class
- Dataset
- 数据集大小:
- 训练集:2512个样本,100608字节
- 测试集:596个样本,23968字节
- 外部集:2482个样本,99408字节
- 数据文件:
数据集引用
- 文献:In Silico Prediction of Human and Rat Liver Microsomal Stability via Machine Learning Methods
- 作者:Longqiang Li, Zhou Lu, Guixia Liu, Yun Tang, and Weihua Li
- 期刊:Chemical Research in Toxicology
- 年份:2022
- 卷号:35
- 期号:9
- DOI:10.1021/acs.chemrestox.2c00207
数据集大小
- 范围:10K<n<100K
数据集许可证
- 许可证:MIT
搜集汇总
数据集介绍

构建方式
在药物代谢动力学领域,评估化合物在肝微粒体中的稳定性是早期药物研发的关键环节。该数据集通过系统性地从ChEMBL生物活性数据库中筛选与人类及大鼠肝微粒体稳定性相关的实验数据构建而成。初始阶段,研究人员依据特定实验标识符(HLM ID: 613373, 2367379, 612558;RLM ID: 613694, 2367428, 612558)收集了数千个化合物记录。经过严格的数据清洗与标准化处理,例如使用MolVS工具对分子结构进行净化,最终形成了包含5902个HLM化合物与3108个RLM化合物的高质量数据集。数据被精心划分为训练集、测试集及外部验证集,其中RLM的外部验证集来源于美国国家转化科学促进中心的公开实验数据(PubChem AID 1508591),确保了数据来源的可靠性与评估的独立性。
特点
该数据集在毒理学与计算化学交叉领域展现出鲜明的特色。其核心特征在于提供了人类与大鼠肝微粒体稳定性的并行数据,便于进行跨物种的代谢稳定性比较研究。数据集以化合物的SMILES字符串作为分子表征,并附有经过实验验证的二元分类标签(稳定为0,不稳定为1),为机器学习模型提供了清晰的学习目标。数据规模适中,HLM与RLM分别包含数千个样本,且类别分布经过精心平衡,例如RLM数据集中稳定与不稳定化合物比例接近1:1,这有助于训练出泛化能力更强的预测模型。此外,数据集还包含一个独立的‘Marketed_Drug’配置,提供了已上市药物的稳定性信息及不同方法的预测结果,为模型性能的基准测试提供了宝贵资源。
使用方法
该数据集主要服务于构建与评估化合物代谢稳定性的机器学习预测模型。使用者可通过Hugging Face的`datasets`库便捷地加载HLM或RLM子集,获取结构化的训练、测试及外部验证数据。典型的应用流程包括:利用`MolFlux`等专业化学生信息学工具包,从SMILES字符串中提取摩根指纹或MACCS密钥等分子特征;随后,使用如CatBoost等分类算法在训练集上构建预测模型;最终,在独立的测试集和外部验证集上评估模型的分类性能,例如通过计算准确率、召回率等指标。这种端到端的流程为研究人员提供了一个标准化、可复现的计算框架,用于推进药物早期ADMET性质的体外预测研究。
背景与挑战
背景概述
在药物发现与毒理学领域,化合物在肝脏微粒体中的代谢稳定性是评估其药代动力学性质与潜在毒性的关键参数。人类与大鼠肝脏微粒体稳定性数据集(HLM_RLM)由李龙强等研究人员于2022年构建,并发表于《Chemical Research in Toxicology》期刊。该数据集旨在通过机器学习方法,对化合物在人类和大鼠肝脏微粒体中的稳定性进行二元分类预测,从而加速早期药物筛选流程,减少实验成本。其数据源自ChEMBL生物活性数据库及美国国家转化科学促进中心的公开实验数据,经过精心筛选与标准化处理,涵盖了数千个化合物的SMILES表征及其稳定性标签。该数据集的发布为计算毒理学与药物设计领域提供了重要的基准资源,推动了体外代谢预测模型的创新发展。
当前挑战
该数据集致力于解决化合物代谢稳定性预测这一复杂问题,其核心挑战在于生物体系的异质性与数据稀缺性。肝脏微粒体代谢涉及多种酶系相互作用,使得从化学结构到稳定性标签的映射关系高度非线性,传统定量构效关系模型往往难以捕捉其深层特征。在数据构建过程中,研究人员面临实验数据来源分散、测量标准不统一的难题,需从多源数据库中整合并清洗原始化合物信息,确保数据的一致性与可靠性。此外,类不平衡现象在HLM子集中尤为显著,稳定与不稳定化合物的比例差异可能影响机器学习模型的泛化性能,需借助外部验证集进行严格评估以提升预测准确性。
常用场景
经典使用场景
在药物发现与毒理学领域,肝微粒体稳定性评估是化合物代谢研究的关键环节。该数据集通过整合人类与大鼠肝微粒体稳定性数据,为机器学习模型提供了标准化的训练与测试基准。研究者利用化合物的SMILES表示与二元稳定性标签,构建分类模型以预测新化合物的代谢稳定性,从而加速先导化合物的筛选与优化过程。
实际应用
在实际药物研发流程中,该数据集被广泛应用于虚拟筛选平台。制药企业借助其训练的预测模型,快速评估候选化合物的代谢稳定性,优先选择具有良好药代动力学性质的分子进入临床前研究。这不仅降低了实验成本,还缩短了研发周期,为创新药物的高效发现提供了关键的计算支持。
衍生相关工作
基于该数据集,多项经典研究工作得以展开。例如,原文献中利用随机森林、支持向量机等算法构建了高精度预测模型,并公开了模型代码。后续研究进一步探索了图神经网络与深度学习方法,提升了预测的泛化能力。这些工作共同推动了AI在代谢预测领域的应用,形成了系列开源工具与标准化评估流程。
以上内容由遇见数据集搜集并总结生成



