BOOM (Benchmarking Out-Of-distribution Molecular Property Predictions)
收藏arXiv2025-05-04 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.01912v1
下载链接
链接失效反馈官方服务:
资源简介:
BOOM数据集是一个用于评估机器学习模型在分子性质预测任务中泛化到分布外(OOD)性能的标准基准。该数据集由10个独特的分子性质数据集组成,包括QM9数据集中的8个分子性质和10k数据集中的2个分子性质。QM9数据集包含133,886个小分子,而10k数据集包含10,206个实验合成的CHON小分子。这些数据集通过密度泛函理论(DFT)计算获得。BOOM数据集旨在解决当前化学机器学习模型在分布外泛化能力不足的问题,并推动开发具有更强泛化能力的化学基础模型。
The BOOM dataset is a standard benchmark for evaluating the out-of-distribution (OOD) generalization performance of machine learning models on molecular property prediction tasks. It consists of 10 unique molecular property datasets, including 8 molecular properties from the QM9 dataset and 2 from the 10k dataset. The QM9 dataset contains 133,886 small molecules, while the 10k dataset comprises 10,206 experimentally synthesized CHON small molecules. All these datasets are obtained via density functional theory (DFT) calculations. The BOOM dataset aims to address the insufficient out-of-distribution generalization capability of current chemical machine learning models, and promote the development of more robust chemical foundation models.
提供机构:
劳伦斯利弗莫尔国家实验室
创建时间:
2025-05-04
搜集汇总
数据集介绍

构建方式
BOOM数据集的构建基于量子化学计算和实验合成的分子数据,主要来源于QM9数据集和10k数据集。QM9数据集包含133,886个小分子的多种物理化学性质,通过密度泛函理论(DFT)计算获得;10k数据集则包含10,206个实验合成的小分子的密度和固态生成热数据。数据集的OOD(Out-Of-Distribution)划分通过核密度估计方法实现,选择属性分布尾部的分子作为OOD测试集,确保测试样本与训练样本在属性空间上具有显著差异。
特点
BOOM数据集的特点在于其专注于分子属性的OOD预测评估,涵盖了10种不同的分子属性,包括极化率、热容、HOMO-LUMO能隙等。数据集的独特之处在于其严格的OOD划分方法,能够有效评估模型在属性空间上的泛化能力。此外,数据集还提供了多种分子表示方法(如SMILES、分子图、3D坐标等)和模型架构(如Transformer、GNN等)的基准测试结果,为研究者提供了全面的性能对比。
使用方法
BOOM数据集的使用方法主要包括三个步骤:首先,用户可以选择特定的分子属性和模型架构进行基准测试;其次,通过加载预定义的训练集、ID测试集和OOD测试集,进行模型训练和评估;最后,利用提供的RMSE和R2等指标,分析模型在ID和OOD数据上的性能差异。数据集还支持用户自定义OOD划分策略和模型架构,以进一步探索OOD泛化能力的提升途径。
背景与挑战
背景概述
BOOM(Benchmarking Out-Of-distribution Molecular Property Predictions)数据集由劳伦斯利弗莫尔国家实验室和宾汉姆顿大学的研究团队于2025年提出,旨在系统评估分子性质预测模型在分布外(OOD)场景下的泛化能力。该数据集聚焦于化学分子发现中的核心挑战——模型对未知化学结构的预测准确性,填补了当前分子机器学习领域缺乏标准化OOD评估基准的空白。研究团队通过分析10种分子性质数据集和12种主流模型架构,揭示了现有模型在预测极端性质值时的系统性缺陷,为化学机器学习的发展指明了新方向。
当前挑战
BOOM数据集面临双重挑战:在领域问题层面,需解决分子性质预测模型对电子结构相关性质(如HOMO-LUMO能隙、偶极矩等)的OOD预测难题,现有模型在此类任务中平均误差达到分布内预测的3倍;在构建技术层面,研究团队需开发创新的数据划分方法(基于核密度估计的尾部采样),并克服多模态分子表示(SMILES序列、3D图结构等)与不同模型架构(Transformer、GNN等)的兼容性问题。此外,化学基础模型在预训练策略与下游任务间的知识迁移机制也构成重要挑战。
常用场景
经典使用场景
BOOM数据集在分子发现和化学信息学领域具有重要应用,特别是在评估机器学习模型在分布外(OOD)分子属性预测中的性能。该数据集通过系统化的基准测试,为研究人员提供了一个标准化的评估平台,用于比较不同模型在预测未知分子属性时的表现。其经典使用场景包括分子生成模型的筛选、药物设计中的虚拟筛选以及新材料发现中的属性预测。
解决学术问题
BOOM数据集解决了化学机器学习领域中一个关键学术问题:模型在分布外数据上的泛化能力。传统分子属性预测模型通常在分布内(ID)数据上表现良好,但在面对未知化学空间时性能显著下降。该数据集通过提供标准化的OOD评估协议,填补了这一研究空白,并为开发具有更强泛化能力的模型提供了方向。其意义在于推动了化学机器学习从单纯追求ID性能向兼顾OOD泛化能力的研究范式转变。
衍生相关工作
BOOM数据集已衍生出多个重要研究方向。基于其基准测试结果,研究人员开发了新型的等变图神经网络(如MACE)和混合架构模型(如Graphormer-3D)。该数据集还促进了化学预训练策略的改进研究,特别是针对OOD泛化的特定预训练任务设计。此外,其数据分割方法也被其他化学基准测试所借鉴,推动了化学机器学习评估标准的发展。
以上内容由遇见数据集搜集并总结生成



