OMC25
收藏Hugging Face2025-12-12 更新2025-12-13 收录
下载链接:
https://huggingface.co/datasets/facebook/OMC25
下载链接
链接失效反馈官方服务:
资源简介:
OMC25是最大的高质量分子晶体DFT数据集,由VASP软件在PBE-D3理论水平下生成。数据集包含从Genarris 3.0生成的分子晶体松弛轨迹中采样的结构,起始分子来自OE62数据集。数据集分为训练集和验证集,分别包含24,870,226和1,386,816个结构。此外,还提供了关于所有初始分子晶体结构的详细信息。
提供机构:
AI at Meta
创建时间:
2025-12-12
原始信息汇总
Open Molecular Crystals 2025 (OMC25) 数据集概述
基本信息
- 数据集名称:Open Molecular Crystals 2025 (OMC25) dataset
- 许可证:CC-BY-4.0
- 领域:化学
- 数据规模:10M < n < 100M
数据集描述
OMC25是目前最大规模的高质量分子晶体密度泛函理论数据集。该数据集在Vienna Ab initio Simulation Package (VASP)中使用PBE-D3理论级别生成。其结构采样自分子晶体弛豫轨迹,这些晶体由Genarris 3.0生成,起始分子来源于OE62数据集。
数据内容与划分
数据集文件以LMDBDatabase对象格式存储,提供了训练集和验证集的划分。
| 划分 | 数据量 | 起始分子晶体数 | 起始分子数 | 存储大小 | 下载链接 |
|---|---|---|---|---|---|
| 训练集 | 24,870,226 | 207,271 | 44,403 | 139GB | https://dl.fbaipublicfiles.com/opencatalystproject/data/omc/250802/omc_train_250802.tar.gz |
| 验证集 | 1,386,816 | 11,570 | 2,467 | 7.6GB | https://dl.fbaipublicfiles.com/opencatalystproject/data/omc/250802/omc_val_250802.tar.gz |
补充信息文件
提供了所有独特初始分子晶体结构的详细信息文件:omc25-starting-crystals.csv。该文件包含以下列:
| 列名 | 描述 |
|---|---|
csd_refcode |
来自OE62数据集的分子的CSD参考代码 |
z_value |
晶体单胞中的分子式单元数 |
genarris_step |
采样自Genarris 3.0的生成步骤(gener)或刚性加压步骤(press) |
xtal.id |
在Genarris步骤生成的候选结构中唯一的晶体标识符 |
split |
结构被划分到训练集(train)或验证集(val) |
nframes |
从弛豫轨迹中采样的帧数 |
mol.composition, xtal.composition |
分子和晶体的组成 |
mol.natoms, xtal.natoms |
分子和晶体单胞中的原子数 |
mol.mass, xtal.mass |
分子和晶体单胞的摩尔质量(g/mol) |
xtal.spacegroup |
晶体空间群(对称容差SYMPREC=10<sup>-5</sup>) |
数据读取方式
可使用fairchem库读取OMC25数据集。安装后,可按示例代码加载数据。数据结构存储为ASE Atoms对象,包含DFT总能量(eV)、力(eV/Å)和应力(eV/ų)标签。atoms.info中还包含其他属性和元数据,如唯一结构标识符sid、CSD参考代码csd_refcode、单胞分子数z_value、Genarris步骤genarris_step、唯一晶体标识符xtal.id以及内部标识符source。
基准模型
在完整OMC25数据集上训练的基线模型检查点位于:
- https://huggingface.co/facebook/OMC25
- https://huggingface.co/facebook/UMA
支持与引用
如有问题,可在Github Issues中提出。使用本工作时,请引用提供的论文。
搜集汇总
数据集介绍

构建方式
在计算化学领域,高质量分子晶体数据集的构建对于材料发现与性质预测至关重要。OMC25数据集通过维也纳从头算模拟包(VASP)在PBE-D3理论水平下生成,其初始结构源自OE62数据集中的分子,并利用Genarris 3.0程序对分子晶体进行松弛轨迹采样。该过程涵盖了从生成步骤到刚性压力步骤的多个阶段,确保了数据的多样性与代表性。最终,数据集以LMDB格式存储,包含超过2400万训练样本和近140万验证样本,为分子晶体模拟提供了坚实的计算基础。
特点
作为当前规模最大且质量最高的分子晶体密度泛函理论数据集,OMC25展现了多方面的显著特点。数据集不仅提供了结构松弛轨迹中的原子位置、能量、力和应力等关键物理量,还附带了丰富的元数据,如晶体空间群、分子组成及唯一标识符。这些信息覆盖了44,403个初始分子及其衍生的207,271个晶体结构,支持对晶体性质与稳定性的深入分析。数据的高精度与系统性使其成为开发机器学习模型的理想资源,推动了计算化学与材料科学的前沿探索。
使用方法
为便于科研人员高效利用OMC25数据集,开发者提供了基于fairchem库的标准化访问接口。用户可通过安装fairchem-core包,使用AseDBDataset类加载存储在本地路径的LMDB文件。数据集中的每个结构均以ASE原子对象形式呈现,可直接获取原子坐标、原子序数以及能量、力等标签信息。此外,atoms.info中包含了晶体来源、分子标识等元数据,支持定制化分析与模型训练。这种集成化的访问方式降低了数据处理的复杂度,促进了在分子晶体模拟与机器学习应用中的广泛使用。
背景与挑战
背景概述
分子晶体材料在药物设计、能源存储和催化等领域具有关键应用,其性质预测依赖于精确的密度泛函理论计算。然而,传统方法受限于计算成本与数据稀缺,阻碍了机器学习模型的泛化能力。为此,Meta等机构的研究团队于2025年发布了开放分子晶体2025数据集,该数据集基于PBE-D3理论水平,利用VASP软件包与Genarris 3.0采样技术,从OE62分子库中衍生出超过两千五百万个高质量结构。作为目前规模最大的分子晶体密度泛函理论数据集,OMC25旨在为晶体结构松弛、能量与力预测提供基准,推动材料发现领域的算法创新与模型训练。
当前挑战
在分子晶体领域,准确预测其稳定构型与物理化学性质面临多重挑战:晶体结构的复杂多样性导致能量景观崎岖,传统计算方法难以高效探索全局极小值;同时,分子间弱相互作用如范德华力的精确描述需要高精度理论模型,计算负担沉重。数据集构建过程中,研究人员需应对大规模密度泛函理论模拟的数值稳定性问题,确保弛豫轨迹采样的代表性与一致性;此外,从原始分子到晶体结构的生成需平衡化学空间的覆盖度与计算可行性,避免偏差引入。这些挑战共同凸显了OMC25在推动数据驱动材料科学中的关键价值。
常用场景
经典使用场景
在计算材料科学领域,分子晶体的性质预测是核心挑战之一。OMC25数据集作为目前规模最大、质量最高的分子晶体密度泛函理论数据集,其经典使用场景在于为机器学习模型提供海量、精确的训练数据,以预测分子晶体的能量、力和应力等关键物理量。研究人员利用该数据集训练图神经网络或等变模型,从而高效地模拟晶体结构弛豫过程,替代传统耗时的高精度量子化学计算,显著加速新材料的设计与发现。
衍生相关工作
围绕OMC25数据集,已衍生出一系列重要的研究工作。基于该数据集训练的基线模型,如UMA等,展示了大规模数据在提升模型泛化能力与预测精度方面的潜力。这些模型进一步被应用于构建分子晶体性质预测平台,或作为预训练模型迁移至特定材料体系。相关研究不仅验证了数据规模对模型性能的关键影响,也催生了新的模型架构与训练策略,推动了整个计算材料学社区向数据密集型研究范式的转变。
数据集最近研究
最新研究方向
在计算材料科学与分子晶体工程领域,OMC25数据集作为目前规模最大、质量最高的分子晶体密度泛函理论数据集,正推动着数据驱动的材料发现范式变革。该数据集通过PBE-D3理论级别的计算,结合Genarris 3.0生成的松弛轨迹,为机器学习模型提供了丰富的能量、力和应力标签,显著加速了晶体结构预测与稳定性评估。前沿研究聚焦于利用该数据集训练图神经网络与等变模型,以精准预测分子晶体的形成焓、力学性质及相变行为,同时探索高通量虚拟筛选在药物多晶型设计与新能源材料开发中的应用。相关热点事件包括Open Catalyst Project等开源倡议的推进,以及基于OMC25的基线模型在晶体性质预测竞赛中的表现,这些进展不仅深化了对分子晶体构效关系的理解,也为实验合成提供了可靠的理论先导,在制药、光电材料等领域具有重要的科学意义与工程价值。
以上内容由遇见数据集搜集并总结生成



