QM9, ESOL, FreeSolv, Lipophilicity, PCBA, HIV, BACE, BBBP, Tox21, ToxCast, SIDER, ClinTox
收藏github2024-05-11 更新2024-05-31 收录
下载链接:
https://github.com/GLambard/Molecules_Dataset_Collection
下载链接
链接失效反馈官方服务:
资源简介:
QM9: DFT模型小分子的几何、能量、电子和热力学性质[分类]
ESOL: 常见有机小分子的水溶性数据(每升溶质摩尔数的对数)[回归]
FreeSolv: 小分子在水中的实验和计算水合自由能[回归]
Lipophilicity: 辛醇/水分配系数的实验结果(pH 7.4时的logD)[回归]
PCBA: 从PubChem BioAssay中选出,包含通过高通量筛选生成的小分子的测量生物活性[分类]
HIV: 实验测量的抑制HIV复制能力[分类]
BACE: 一组人β-分泌酶1(BACE-1)抑制剂的定量(IC50)和定性(二元标签)结合结果[分类/回归]
BBBP: 血脑屏障渗透性(通透性)的二元标签[分类]
Tox21: 12种生物目标(包括核受体和应激反应途径)的定性毒性测量[分类]
ToxCast: 基于体外高通量筛选的大量化合物毒理学数据,包括超过600项实验[分类]
SIDER: 市售药物和不良药物反应(ADR)的数据库,分为27个系统器官类别[分类]
ClinTox: FDA批准的药物和因毒性原因未通过临床试验的药物的定性数据[分类]
QM9: Geometric, energetic, electronic, and thermodynamic properties of small molecules modeled by DFT (Density Functional Theory) [Classification]
ESOL: Water solubility data of common organic small molecules (logarithm of moles of solute per liter) [Regression]
FreeSolv: Experimental and calculated hydration free energy of small molecules in water [Regression]
Lipophilicity: Experimental results of octanol/water partition coefficient (logD at pH 7.4) [Regression]
PCBA: Selected from PubChem BioAssay, containing measured biological activities of small molecules generated through high-throughput screening [Classification]
HIV: Experimentally measured ability to inhibit HIV replication [Classification]
BACE: Quantitative (IC50) and qualitative (binary labels) binding results of a set of human β-secretase 1 (BACE-1) inhibitors [Classification/Regression]
BBBP: Binary labels for blood-brain barrier permeability [Classification]
Tox21: Qualitative toxicity measurements for 12 biological targets, including nuclear receptors and stress response pathways [Classification]
ToxCast: Toxicology data of a large number of compounds based on in vitro high-throughput screening, including over 600 experiments [Classification]
SIDER: Database of marketed drugs and adverse drug reactions (ADR), categorized into 27 system organ classes [Classification]
ClinTox: Qualitative data of FDA-approved drugs and drugs that failed clinical trials due to toxicity [Classification]
创建时间:
2018-06-18
原始信息汇总
数据集概述
数据集内容
- 分子数据集:包含多种分子(SMILES格式)及其物理化学属性。
- 数据集分类:
- 量子力学:QM9
- 物理化学:ESOL, FreeSolv, Lipophilicity
- 生物物理学:PCBA, HIV, BACE
- 生理学:BBBP, Tox21, ToxCast, SIDER, ClinTox
数据集描述
- QM9:小分子的几何、能量、电子和热力学属性,基于DFT模型 [分类]
- ESOL:常见有机小分子的水溶性数据(每升溶质摩尔数的对数)[回归]
- FreeSolv:小分子在水中的实验和计算水合自由能 [回归]
- Lipophilicity:辛醇/水分配系数的实验结果(pH 7.4时的logD)[回归]
- PCBA:PubChem BioAssay中测得的小分子生物活性,由高通量筛选产生 [分类]
- HIV:实验测定的抑制HIV复制能力 [分类]
- BACE:人β-分泌酶1(BACE-1)抑制剂的定量(IC50)和定性(二元标签)结合结果 [分类/回归]
- BBBP:血脑屏障渗透性(通透性)的二元标签 [分类]
- Tox21:12种生物目标(包括核受体和应激反应途径)的定性毒性测量 [分类]
- ToxCast:基于体外高通量筛选的大量化合物毒理学数据,包括超过600项实验 [分类]
- SIDER:市场药物和不良药物反应(ADR)的数据库,分为27个系统器官类别 [分类]
- ClinTox:FDA批准的药物和因毒性原因失败的临床试验药物的定性数据 [分类]
数据集处理
- 标准化:所有数据集通过RDKit方法进行标准化,输出异构体、规范化和kekulized SMILES。
- 异常处理:未能成功标准化的SMILES在数据集中被空白替换。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于Moleculenet.ai的启发,通过对分子数据的统一化处理,确保了数据的一致性和可比性。具体而言,所有数据集中的SMILES(简化分子线性输入系统)均通过RDKit工具进行了标准化处理,生成了等价、规范且符合Kekul化规则的SMILES表示。对于未能成功标准化的SMILES,数据集中以空白替代,从而确保了数据的完整性和准确性。
特点
该数据集涵盖了多个领域的分子及其物理化学性质,包括量子力学、物理化学、生物物理学和生理学等。每个数据集均具有明确的任务目标,如分类或回归任务,且数据集之间通过统一的标准化处理,确保了跨领域的可比性和兼容性。此外,数据集的多样性为分子性质预测提供了丰富的实验和计算数据,适用于多种机器学习模型的验证和优化。
使用方法
该数据集可广泛应用于分子性质预测的机器学习模型验证与优化。用户可根据具体任务需求选择相应的数据集,如量子力学性质预测的QM9数据集或药物毒性评估的Tox21数据集。使用时,建议结合RDKit工具进行数据预处理,以确保数据格式的一致性。此外,数据集的分类和回归任务标签为模型训练提供了明确的目标导向,有助于提升模型的预测精度和泛化能力。
背景与挑战
背景概述
在分子机器学习领域,QM9、ESOL、FreeSolv等数据集的创建源于对分子性质预测的迫切需求。这些数据集由Moleculenet.ai项目启发,汇集了多种分子及其物理化学性质,旨在通过标准化处理(如RDKit工具)来统一分子表示,从而为机器学习模型提供高质量的训练和验证数据。核心研究问题集中在如何通过这些数据集验证和提升分子性质预测模型的准确性和泛化能力。自2017年Zhenqin Wu等人提出MoleculeNet以来,这些数据集已成为分子机器学习领域的基准,极大地推动了该领域的研究进展。
当前挑战
这些数据集在构建和应用过程中面临诸多挑战。首先,分子数据的异质性和复杂性使得标准化处理变得困难,尤其是确保SMILES表示的唯一性和准确性。其次,不同数据集的性质和任务各异,如QM9的量子力学性质预测、ESOL的水溶性回归等,要求模型具备高度的适应性和鲁棒性。此外,数据集的规模和质量直接影响模型的训练效果,如何有效处理缺失数据和噪声数据也是一大挑战。最后,随着分子机器学习领域的快速发展,如何持续更新和扩展这些数据集以适应新的研究需求,也是一个亟待解决的问题。
常用场景
经典使用场景
该数据集在分子机器学习领域中被广泛应用于验证分子性质的推断模型。通过提供标准化的SMILES表示和分子物理化学性质,研究者能够利用这些数据集训练和评估各种机器学习模型,特别是在量子力学、物理化学、生物物理学和生理学等领域。例如,QM9数据集用于分类任务,推断小分子的几何、能量、电子和热力学性质;而ESOL数据集则用于回归任务,预测有机小分子的水溶性。
衍生相关工作
基于这些数据集,研究者们开发了多种分子性质预测模型和算法,推动了分子机器学习领域的发展。例如,Zhenqin Wu等人提出的MoleculeNet框架,利用这些数据集进行基准测试,验证了多种机器学习模型的性能。此外,这些数据集还激发了大量关于分子表示学习、图神经网络和深度学习在分子科学中的应用研究,进一步拓展了分子建模的边界。
数据集最近研究
最新研究方向
在分子机器学习领域,QM9、ESOL、FreeSolv等数据集的研究方向主要集中在通过机器学习模型预测分子的物理化学性质和生物活性。这些数据集的规范化处理和统一化表示,使得研究者能够更有效地验证和优化模型,特别是在分子性质预测和药物发现领域。例如,QM9数据集用于分类任务,旨在预测小分子的几何、能量和电子特性,而ESOL和FreeSolv则用于回归任务,专注于预测有机小分子的水溶性和水合自由能。这些研究不仅推动了分子建模技术的发展,还为药物筛选和设计提供了新的工具和方法,具有重要的科学和应用价值。
以上内容由遇见数据集搜集并总结生成



