Open Molecular Crystals 2025(OMC25)dataset
收藏arXiv2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/facebook/OMC25
下载链接
链接失效反馈官方服务:
资源简介:
OMC25数据集是一个包含超过2700万分子晶体结构的集合,每个单元细胞包含12种元素和最多300个原子。该数据集是从230,000多个随机生成的分子晶体结构的色散包容密度泛函理论(DFT)松弛轨迹中生成的,这些分子晶体结构由大约50,000个有机分子组成。OMC25涵盖了能够形成不同分子间相互作用和各种晶体堆积模式的多种化学化合物。数据集的创建过程包括从OE62数据集中采样分子结构,使用Genarris 3.0软件生成随机分子晶体结构,并进行结构松弛。OMC25数据集旨在解决分子晶体结构预测和性质预测的问题,为材料研究提供有价值的数据资源。
OMC25 dataset is a collection of over 27 million molecular crystal structures, each unit cell containing 12 distinct chemical elements and up to 300 atoms. This dataset is generated from dispersion-corrected density functional theory (DFT) relaxed trajectories of more than 230,000 randomly generated molecular crystal structures, which are constructed using approximately 50,000 organic molecules. OMC25 covers a wide range of chemical compounds capable of forming diverse intermolecular interactions and various crystal packing motifs. The development process of OMC25 involves sampling molecular structures from the OE62 dataset, generating random molecular crystal structures with Genarris 3.0 software, and conducting structural relaxation. The OMC25 dataset is intended to address the challenges of molecular crystal structure prediction and property prediction, serving as a valuable data resource for materials research.
提供机构:
Meta
创建时间:
2025-08-05
搜集汇总
数据集介绍

构建方式
Open Molecular Crystals 2025 (OMC25) 数据集通过密度泛函理论(DFT)弛豫轨迹构建,包含超过27,000,000个分子晶体结构。数据集基于随机生成的230,000多个分子晶体结构,涵盖12种元素和最多300个原子的晶胞。采用Genarris 3.0软件生成多样化的晶体堆积排列,并通过严格的过滤和采样策略确保数据质量。
特点
OMC25数据集以其广泛的化学和结构多样性著称,涵盖167种空间群和7种晶系。数据集包含总能量、原子力和晶胞应力等详细标签,并通过紧密收敛的DFT计算确保数据的高精度。此外,数据集特别关注松散和紧密堆积结构的平衡采样,以全面覆盖势能面。
使用方法
OMC25数据集适用于训练和评估机器学习原子间势(MLIPs),支持晶体结构预测(CSP)和分子晶体性质研究。用户可通过HuggingFace平台获取数据集,使用ASE数据库API读取LMDB格式文件。数据集提供预训练的MLIPs模型,可用于能量、力和应力的预测任务,并包含详细的代码和文档以支持复现和进一步研究。
背景与挑战
背景概述
Open Molecular Crystals 2025 (OMC25) 数据集由Meta基础AI研究团队联合卡内基梅隆大学等机构于2025年发布,旨在解决分子晶体结构预测领域的数据稀缺问题。该数据集包含超过2700万个分子晶体结构,涵盖12种元素和最多300个原子/晶胞的体系,基于23万种随机生成的分子晶体结构的DFT-D3弛豫轨迹构建。作为首个大规模开源分子晶体数据集,OMC25通过提供能量、原子力和晶胞应力等精确标签,显著推进了机器学习势函数在药物多晶型预测、有机电子材料设计等领域的应用,填补了该领域长期缺乏高质量训练数据的空白。
当前挑战
该数据集面临的核心挑战体现在两方面:在科学层面,需解决分子晶体多晶型预测中复杂势能面采样、长程范德华力建模等难题,传统DFT计算难以兼顾精度与效率;在构建层面,需克服230万次DFT弛豫计算中的数值收敛控制(如k点密度优化)、异常结构过滤(如分子键断裂检测)等工程挑战,同时确保空间群多样性(覆盖167种空间群)与化学多样性(50,000种有机分子)的平衡。此外,数据集仅包含Z'=1的单组分晶体,对共晶、溶剂化物等复杂体系的普适性仍有局限。
常用场景
经典使用场景
OMC25数据集在分子晶体结构预测和性质研究中具有广泛的应用价值。通过提供超过2700万个分子晶体结构的详细数据,包括能量、原子力和晶胞应力等标签,该数据集为机器学习模型训练提供了丰富资源。研究人员可利用这些数据开发高精度的分子间势能模型,用于模拟晶体结构的稳定性和多态性现象。数据集涵盖12种元素和高达300个原子的晶胞,能够支持从简单有机分子到复杂晶体系统的跨尺度研究。
实际应用
在制药工业中,OMC25数据集可用于加速药物多晶型筛选,预测活性药物成分的稳定晶型。有机电子领域则利用该数据集优化半导体材料的电荷传输性能。数据集还支持含能材料、光响应晶体等功能材料的计算机辅助设计,大幅降低实验试错成本。通过集成到材料基因组计划,该数据集为建立分子晶体性能预测平台提供了核心数据支撑。
衍生相关工作
基于OMC25数据集已衍生出多项重要研究工作。Meta团队开发的UMA(Universal Model for Atoms)系列模型在晶体能量预测任务中表现出色。eSEN和EquiformerV2等图神经网络架构通过该数据集验证了其在周期性体系中的适用性。数据集还催生了FastCSP等专用算法,将晶体结构预测速度提升数个数量级。相关成果发表在《Nature Communications》等期刊,并形成开源工具链fairchem,推动领域标准化发展。
以上内容由遇见数据集搜集并总结生成



