MoleculeNet
收藏arXiv2018-10-26 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1703.00564v3
下载链接
链接失效反馈官方服务:
资源简介:
MoleculeNet是由斯坦福大学的研究团队开发的一个大规模分子机器学习基准。该数据集整合了多个公共数据源,涵盖了超过70万个化合物的多种属性,包括量子力学、物理化学、生物物理和生理效应等四个层次的分子特性。MoleculeNet不仅提供了数据集,还提供了评估指标、高质量的开源实现算法以及数据分割方法,旨在为分子机器学习领域提供一个标准化的评估平台。通过这个平台,研究者可以更容易地开发和改进用于学习分子属性的模型,从而推动化学和机器学习领域的进步。
MoleculeNet is a large-scale molecular machine learning benchmark developed by a research team at Stanford University. This dataset integrates multiple public data sources, covering diverse properties of over 700,000 compounds, including four hierarchical molecular characteristics: quantum mechanics, physical chemistry, biophysics, and physiological effects. In addition to providing the dataset itself, MoleculeNet also offers evaluation metrics, high-quality open-source implementation algorithms, and data splitting methods, aiming to provide a standardized evaluation platform for the field of molecular machine learning. Through this platform, researchers can more easily develop and refine models for learning molecular properties, thereby advancing the progress of the fields of chemistry and machine learning.
提供机构:
斯坦福大学
创建时间:
2017-03-02
搜集汇总
数据集介绍

构建方式
MoleculeNet的构建基于多个公共数据库,整合了超过70万种化合物的数据。这些化合物被划分为量子力学、物理化学、生物物理和生理学四个类别,覆盖从分子层面到宏观人体影响的多种性质。数据集以SMILES字符串表示分子结构,部分数据集还包含三维坐标信息。每个数据集都提供了推荐的任务类型(分类或回归)、评估指标以及数据划分方式(如随机划分、骨架划分、分层划分或时间划分),以确保模型评估的公正性和实用性。所有数据均集成到开源DeepChem包中,用户可通过简单的库调用加载基准数据。
特点
MoleculeNet的特点在于其全面性和标准化。它涵盖了17个数据集,包含超过800个预测任务,为分子机器学习提供了统一的评估平台。数据集不仅包括传统的理化性质(如溶解度、脂溶性),还涉及量子力学性质(如原子化能)、生物物理活性(如结合亲和力)及生理学效应(如毒性)。此外,该基准库实现了多种分子特征化方法(如ECFP、库仑矩阵、图卷积特征化)和多种数据划分策略,以应对化学数据的特殊性。通过提供预定义的评估指标和划分方式,MoleculeNet促进了不同算法之间的公平比较。
使用方法
使用MoleculeNet时,研究人员可以通过DeepChem库中的molnet子模块轻松加载指定数据集、模型和特征化方法。用户只需调用一行代码即可运行基准测试,例如使用deepchem.molnet.run_benchmark函数,并指定数据集、模型、划分方式和特征化器。该库支持多种传统机器学习模型(如逻辑回归、随机森林)和图基模型(如图卷积网络、消息传递神经网络)。此外,用户还可以自定义模型,只要其能够处理DeepChem数据集格式。所有基准测试结果均通过超参数优化和多次独立运行获得,确保结果的稳定性和可重复性。
背景与挑战
背景概述
分子机器学习在近年来蓬勃发展,然而,由于缺乏统一的基准来比较不同算法的效能,该领域的进展受到了显著制约。为解决此问题,斯坦福大学的Zhenqin Wu、Bharath Ramsundar等研究者于2017年发布了MoleculeNet数据集。该数据集由DeepChem开源库支持,整合了超过70万个化合物在量子力学、物理化学、生物物理和生理学四个层面的性质数据,旨在为分子机器学习提供一个标准化的评估平台。MoleculeNet的诞生借鉴了ImageNet在计算机视觉领域的成功经验,通过统一的数据划分、特征化方法和评估指标,推动了可学习分子表征的发展,并对药物发现、材料设计等交叉领域产生了深远影响。
当前挑战
MoleculeNet所面临的挑战主要来源于分子数据固有的复杂性和领域特性。首先,分子数据集通常规模较小且高度异构,获取精确的化学性质需要昂贵的实验设备和专家监督,导致数据稀缺问题突出,这与计算机视觉等领域的大规模标注数据形成鲜明对比。其次,分子结构具有任意大小、多变连接性和三维构象,如何将其转化为适合机器学习模型的固定长度表征(即特征化)是一大难题。此外,构建过程中,不同数据集(如量子力学与生理学数据)所需的分裂策略(如随机分裂、骨架分裂)和评价指标(如ROC-AUC与PRC-AUC)差异显著,统一基准的制定需兼顾多样性与公平性,这对数据集的策划和算法评估提出了严峻挑战。
常用场景
经典使用场景
在分子机器学习领域,MoleculeNet 作为首个大规模标准化基准数据集,其经典使用场景集中于评估和比较不同分子表征与学习算法的性能。研究人员利用该数据集涵盖的量子力学、物理化学、生物物理学及生理学四大类共17个子数据集,对诸如图卷积网络、消息传递神经网络、深度张量神经网络等前沿模型进行系统化基准测试。通过统一的数据划分策略(随机、骨架、时间等)和评价指标(MAE、RMSE、ROC-AUC、PRC-AUC),MoleculeNet 为算法优劣的客观评判提供了坚实平台,从而推动分子性质预测研究的规范化与可复现性。
实际应用
MoleculeNet 在药物发现与材料科学领域展现出广泛的实际应用价值。在虚拟筛选中,基于该基准训练的图卷积模型可快速预测数百万化合物对特定靶点的生物活性,显著降低高通量实验的成本与周期;在ADMET性质预测方面,研究者利用其包含的血脑屏障渗透性、毒性及溶解度数据,构建高精度预测模型以早期筛选候选药物,减少临床失败率。此外,该数据集在量子化学计算中催生了替代密度泛函理论的机器学习势函数,如ANI-1模型能以毫秒级速度预测分子能量,加速催化剂设计或太阳能材料筛选。其与DeepChem开源库的深度集成,使工业界可直接调用标准化流程,大幅降低了分子AI技术的应用门槛。
衍生相关工作
MoleculeNet 的发布催生了一系列影响深远的衍生工作。在模型架构层面,受其基准结果启发,研究者开发了诸如MPNN、D-MPNN、SchNet及PhysNet等新型图神经网络,这些模型在QM9子集上不断刷新量子性质预测精度。在表征学习方面,后续工作如ChemBERTa、MolCLR等利用该数据集预训练分子语言模型或对比学习框架,显著提升了小样本场景下的迁移学习能力。此外,该基准推动了分子机器学习标准化进程,催生了Open Catalyst Project、QMugs等更大规模数据集,并成为NeurIPS、ICML等顶会分子AI竞赛的标准评价平台。其“数据-特征-模型-评价”四位一体的范式,更被广泛借鉴至蛋白质、材料等领域的基准构建中。
以上内容由遇见数据集搜集并总结生成



