Open Molecules 2025 (OMol25)

Name: Open Molecules 2025 (OMol25)
Creator: FAIR at Meta
Published: 2025-05-14 01:29:49
License: 暂无描述

arXiv2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/facebook/OMol25

下载链接

链接失效反馈

官方服务：

资源简介：

OMol25是一个大规模的数据集，包含超过1亿个密度泛函理论（DFT）计算，涵盖83种元素，广泛的化学多样性和结构多样性，包括小分子、生物分子、金属络合物和电解质。数据集的构建是为了解决机器学习模型在分子化学中的准确性和多样性问题，通过提供高水平的DFT理论计算，旨在推动分子化学领域的研究。

OMol25 is a large-scale dataset encompassing over 100 million density functional theory (DFT) calculations. It covers 83 distinct elements and features extensive chemical and structural diversity, including small molecules, biomolecules, metal complexes, and electrolytes. The dataset was developed to address the key challenges of accuracy and diversity for machine learning models in molecular chemistry, and aims to advance research in this field by providing high-level DFT calculations.

提供机构：

FAIR at Meta

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

Open Molecules 2025 (OMol25) 数据集通过密度泛函理论（DFT）在ωB97M-V/def2-TZVPD理论水平上进行了超过1亿次计算，涵盖了83种元素，包括小分子、生物分子、金属配合物和电解质等多种分子系统。数据集的构建采用了多种采样技术，如经典和基于MLIP的分子动力学（MD）以及构象采样，确保了元素、化学和结构多样性的广泛覆盖。此外，数据集还重新计算了多个现有数据集，以确保一致的DFT理论水平。

特点

OMol25数据集的特点在于其前所未有的规模和多样性，包含超过1亿个DFT计算，系统大小从2到350个原子不等，电荷范围从-10到+10，自旋多重度从1到11。数据集独特地融合了元素、化学和结构多样性，包括分子内和分子间相互作用、显式溶剂化、可变电荷/自旋、构象体和反应性结构。此外，数据集还提供了能量、力、部分电荷和自旋方案、轨道能量、Fock矩阵、密度等多种性质。

使用方法

OMol25数据集可用于训练分子化学的机器学习模型，特别是在原子模拟中作为DFT的替代品。数据集提供了训练、验证和测试分割，以确保一致的评估。用户可以利用基线模型和全面的模型评估集来开发下一代分子化学的ML模型。数据集的使用方法包括下载公开数据、利用提供的基线模型进行训练和评估，以及参与社区开发的公共排行榜以推动模型创新。

背景与挑战

背景概述

Open Molecules 2025 (OMol25)是由Meta FAIR团队于2025年推出的一个大规模分子化学数据集，旨在解决机器学习在原子模拟中面临的数据缺乏问题。该数据集包含超过1亿个密度泛函理论（DFT）计算，覆盖了83种元素，涵盖了小分子、生物分子、金属配合物和电解质等多种分子系统。OMol25的创建是为了提供广泛的化学多样性，包括分子内和分子间相互作用、显式溶剂化、可变电荷/自旋状态、构象异构体和反应性结构等。该数据集的计算水平为ωB97M-V/def2-TZVPD，代表了数十亿CPU核心小时的计算量。OMol25的发布为开发下一代分子化学机器学习模型提供了重要的资源。

当前挑战

OMol25数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决分子化学中机器学习模型训练数据的缺乏问题，特别是在广泛的化学多样性和高精度要求下的数据生成。传统的小规模数据集（如QM9和MD-17）仅覆盖有限的原子类型和化学多样性，无法满足现代机器学习模型的需求。2) 构建过程中的挑战：构建如此大规模的数据集需要克服极高的计算成本，尤其是在高精度DFT理论水平下进行计算。此外，确保数据集中的元素、化学和结构多样性，同时保持电荷和自旋状态的准确性，也是一个复杂的挑战。数据集还需要处理大量系统的优化和质量控制，确保计算结果的可靠性和一致性。

常用场景

经典使用场景

Open Molecules 2025 (OMol25) 数据集在计算化学和机器学习领域具有广泛的应用场景。作为一个包含超过1亿个密度泛函理论（DFT）计算的大规模数据集，OMol25特别适用于训练和评估机器学习原子间势能（MLIPs）模型。其经典使用场景包括分子动力学模拟、药物设计中的蛋白质-配体相互作用研究、催化剂设计中的金属配合物反应性预测，以及电解质溶液中的离子行为模拟。数据集的高精度和广泛化学多样性使其成为开发下一代分子化学模型的理想选择。

衍生相关工作

OMol25数据集已经衍生出多项重要研究工作。基于该数据集开发的基准模型包括eSEN、GemNet-OC和MACE等，这些模型在分子能量和力预测方面表现出色。数据集还促进了新型评估任务的创建，如配体应变能计算、构象排序和质子化能量预测等。此外，OMol25为金属配合物反应性、电解质界面效应等专门领域的研究提供了数据基础。相关工作还包括开发考虑长程相互作用的改进模型架构，以及探索电荷和自旋状态对分子性质影响的深入研究。

数据集最近研究