five

OMAT24

收藏
Hugging Face2024-10-19 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/fairchem/OMAT24
下载链接
链接失效反馈
资源简介:
Meta Open Materials 2024 (OMat24) 数据集是一个用于化学和材料科学研究的材料数据集合。该数据集包含非平衡结构的单点计算和结构弛豫,标记有总能量、力和应力。数据以ASE DB兼容的lmdb文件格式提供,并分为训练和验证集。每个集包含基于不同输入生成策略的多个子数据集。该数据集完全兼容Matbench Discovery基准测试集,并且不包含与WBM数据集重叠的任何结构。此外,README还提到了sAlex数据集,这是一个用于OMat模型微调的亚采样版本。README还提供了使用fairchem库读取数据的说明,并提供了支持渠道以解决任何问题。

Meta Open Materials 2024 (OMat24) dataset is a materials data collection for chemical and materials science research. This dataset contains single-point calculations and structural relaxations of non-equilibrium structures, annotated with total energy, forces, and stresses. The data is provided in ASE DB-compatible LMDB file format, and is split into training and validation sets. Each set includes multiple subdatasets based on different input generation strategies. This dataset is fully compatible with the Matbench Discovery benchmark dataset, and does not contain any structures overlapping with the WBM dataset. In addition, the README also mentions the sAlex dataset, which is a sub-sampled version for fine-tuning the OMat model. The README also provides instructions for reading data using the fairchem library, as well as support channels for resolving any issues.
创建时间:
2024-10-18
原始信息汇总

Meta Open Materials 2024 (OMat24) Dataset

概述

OMat24数据集包含非平衡结构的单点计算和结构弛豫的混合数据。数据集中的结构标注了总能量(eV)、力(eV/A)和应力(eV/A^3)。数据集以ASE DB兼容的lmdb文件格式提供。

数据集

OMat24数据集

OMat24数据集分为训练集和验证集,每个集包含基于不同输入生成策略的多个子数据集。

训练集

子数据集 大小 下载链接
rattled-1000 11,388,510 rattled-1000.tar.gz
rattled-1000-subsampled 3,879,741 rattled-1000-subsampled.tar.gz
rattled-500 6,922,197 rattled-500.tar.gz
rattled-500-subsampled 3,975,416 rattled-500-subsampled.tar.gz
rattled-300 6,319,139 rattled-300.tar.gz
rattled-300-subsampled 3,464,007 rattled-300-subsampled.tar.gz
aimd-from-PBE-1000-npt 21,269,486 aimd-from-PBE-1000-npt.tar.gz
aimd-from-PBE-1000-nvt 20,256,650 aimd-from-PBE-1000-nvt.tar.gz
aimd-from-PBE-3000-npt 6,076,290 aimd-from-PBE-3000-npt.tar.gz
aimd-from-PBE-3000-nvt 7,839,846 aimd-from-PBE-3000-nvt.tar.gz
rattled-relax 9,433,303 rattled-relax.tar.gz
总计 100,824,585 -

验证集

子数据集 大小 下载链接
rattled-1000 122,937 rattled-1000.tar.gz
rattled-1000-subsampled 41,786 rattled-1000-subsampled.tar.gz
rattled-500 75,167 rattled-500.tar.gz
rattled-500-subsampled 43,068 rattled-500-subsampled.tar.gz
rattled-300 68,593 rattled-300.tar.gz
rattled-300-subsampled 37,393 rattled-300-subsampled.tar.gz
aimd-from-PBE-1000-npt 223,574 aimd-from-PBE-1000-npt.tar.gz
aimd-from-PBE-1000-nvt 215,589 aimd-from-PBE-1000-nvt.tar.gz
aimd-from-PBE-3000-npt 65,244 aimd-from-PBE-3000-npt.tar.gz
aimd-from-PBE-3000-nvt 84,063 aimd-from-PBE-3000-nvt.tar.gz
rattled-relax 99,968 rattled-relax.tar.gz
总计 1,077,382 -

sAlex数据集

sAlex数据集用于OMat模型的微调。sAlex是原始Alexandria数据集的子采样版本,符合Matbench-Discovery标准。

数据集 分割 大小 下载链接
sAlex 训练集 10,447,765 train.tar.gz
sAlex 验证集 553,218 val.tar.gz

数据读取

OMat24和sAlex数据集可以通过fairchem库访问。数据集文件以AseLMDBDatabase对象的形式写入,这些对象是ASE Database的LMDB格式实现。

引用

OMat24数据集根据Creative Commons Attribution 4.0 License授权。如果使用此工作,请引用:

@misc{barroso_omat24, title={Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models}, author={Luis Barroso-Luque and Muhammed Shuaibi and Xiang Fu and Brandon M. Wood and Misko Dzamba and Meng Gao and Ammar Rizvi and C. Lawrence Zitnick and Zachary W. Ulissi}, year={2024}, eprint={2410.12771}, archivePrefix={arXiv}, primaryClass={cond-mat.mtrl-sci}, url={https://arxiv.org/abs/2410.12771}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
OMAT24数据集的构建基于多种计算策略,涵盖了非平衡结构的单点计算和结构弛豫。数据集以ASE DB兼容的lmdb文件形式提供,包含总能量(eV)、力(eV/A)和应力(eV/A^3)等标签。数据集的训练和验证集分别由多个子数据集组成,这些子数据集根据不同的输入生成策略进行划分,确保了数据的多样性和广泛性。此外,数据集的设计与Matbench Discovery基准测试集完全兼容,避免了与WBM数据集中的初始或弛豫结构重复。
使用方法
OMAT24数据集的使用依赖于FAIRChem库,用户可以通过安装fairchem-core包来访问数据。数据集以AseLMDBDatabase对象的形式存储,支持通过ASE数据库接口进行查询。用户可以使用AseDBDataset类读取单个或多个子数据集,并通过索引获取原子结构对象。为了高效处理大规模数据,建议用户将多个子数据集路径传递给AseDBDataset类,以便一次性读取所有相关数据。详细的配置和使用方法可参考FAIRChem库的教程文档。
背景与挑战
背景概述
OMAT24数据集是由Meta Open Materials项目于2024年发布的一个重要材料科学数据集,旨在加速无机材料领域的研究。该数据集由Luis Barroso-Luque等研究人员主导开发,涵盖了非平衡结构的单点计算和结构弛豫数据,包含总能量、力和应力等关键物理量。数据集以ASE DB兼容的lmdb文件格式提供,并分为训练集和验证集,与Matbench Discovery基准测试集完全兼容。OMAT24的发布为材料科学领域的计算模型提供了丰富的训练和验证资源,推动了材料设计与发现的高效算法开发。
当前挑战
OMAT24数据集在构建和应用过程中面临多重挑战。首先,材料科学领域的复杂性和多样性使得数据集的构建需要精确捕捉非平衡结构和弛豫过程的物理特性,这对计算资源和算法提出了极高要求。其次,数据集的规模庞大,包含超过1亿个数据点,如何高效存储、管理和访问这些数据成为技术难题。此外,确保数据集与现有基准测试集的兼容性,避免数据泄露和重复,也是构建过程中需要解决的关键问题。最后,如何通过开源工具如FAIRChem包实现数据的高效读取和应用,进一步提升了数据集的使用门槛。
常用场景
经典使用场景
OMAT24数据集在材料科学领域中,主要用于非平衡结构的单点计算和结构弛豫研究。该数据集通过提供包含总能量、力和应力标签的结构数据,为研究人员在材料模拟和预测方面提供了重要支持。特别是在材料发现和优化过程中,OMAT24数据集能够帮助研究者快速验证和优化材料模型,提升计算效率。
解决学术问题
OMAT24数据集解决了材料科学中常见的非平衡结构计算和结构弛豫问题。通过提供大量精确标注的结构数据,该数据集为材料模拟和预测提供了可靠的基础,显著提升了材料性能预测的准确性。此外,OMAT24数据集与Matbench Discovery基准测试集的兼容性,进一步推动了材料发现领域的研究进展。
实际应用
在实际应用中,OMAT24数据集被广泛应用于新材料的设计和优化。通过该数据集,研究人员能够快速筛选出具有潜在应用价值的材料结构,加速新材料的开发进程。特别是在催化剂设计和能源材料领域,OMAT24数据集为高性能材料的发现提供了重要支持,推动了相关技术的实际应用。
数据集最近研究
最新研究方向
在材料科学领域,OMAT24数据集的最新研究方向聚焦于非平衡结构单点计算与结构弛豫的混合分析。该数据集通过提供包含总能量、力和应力的结构标签,为材料性能预测和设计提供了丰富的数据支持。当前研究热点包括利用该数据集进行高通量计算和机器学习模型的训练,以加速新材料的发现与优化。特别是与Matbench Discovery基准测试集的兼容性,使得OMAT24在材料发现领域的应用前景广阔。此外,结合FAIRChem工具包的使用,研究者能够更高效地处理和分析大规模材料数据,推动材料科学的前沿发展。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作