five

Open Materials 2024 (OMat24)|材料科学数据集|人工智能数据集

收藏
arXiv2024-10-17 更新2024-10-18 收录
材料科学
人工智能
下载链接:
https://huggingface.co/datasets/fairchem/OMAT24
下载链接
链接失效反馈
资源简介:
Open Materials 2024 (OMat24) 是由Meta的基础AI研究(FAIR)团队创建的一个大规模无机材料数据集,包含超过1.18亿个密度泛函理论(DFT)计算结果,专注于结构和组成的多样性。数据集通过多种非平衡结构生成方法(如Boltzmann采样、AIMD和结构弛豫)构建,旨在提高模型的非平衡和动态特性预测能力。OMat24数据集的应用领域广泛,包括新材料发现、催化剂设计、金属有机框架等,旨在通过AI加速材料科学的发展,解决新材料发现中的计算和实验挑战。
提供机构:
Meta的基础AI研究(FAIR)
创建时间:
2024-10-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
OMat24数据集的构建基于大规模密度泛函理论(DFT)计算,涵盖了超过1.18亿个非平衡原子构型和元素组成的单点DFT计算。该数据集通过三种主要方法生成多样化的非平衡结构:Boltzmann采样振动的结构、从头算分子动力学(AIMD)以及振动结构的弛豫。这些方法确保了数据集在能量、力和应力分布上的广泛多样性,从而为训练远离平衡态的模型提供了丰富的数据资源。
特点
OMat24数据集的显著特点在于其巨大的规模和结构多样性,包含超过1.18亿个DFT计算结果,覆盖了从1到100个原子的广泛范围。此外,数据集在元素分布上几乎涵盖了整个周期表,特别强调了氧化物的代表性。这种广泛的元素和结构多样性使得OMat24成为训练和验证材料科学中机器学习模型的理想数据集。
使用方法
OMat24数据集主要用于训练和验证基于图神经网络(GNN)的机器学习模型,以预测材料的稳定性和形成能。研究者可以通过预训练和微调策略,利用OMat24数据集提升模型在Matbench Discovery基准测试中的表现。数据集的开放性和多样性也鼓励研究社区在此基础上进一步开发和优化AI辅助材料科学的新方法。
背景与挑战
背景概述
Open Materials 2024 (OMat24) 数据集由 Meta 的 Fundamental AI Research (FAIR) 团队于 2024 年发布,旨在解决材料科学领域中新型材料发现的关键问题。该数据集包含了超过 1.1 亿个密度泛函理论 (DFT) 计算,专注于无机材料的结构和成分多样性。OMat24 的发布填补了公开可用训练数据和预训练模型的空白,推动了人工智能在材料发现和设计中的应用。通过 EquiformerV2 模型,OMat24 在 Matbench Discovery 排行榜上取得了最先进的性能,能够以高精度预测基态稳定性和形成能。
当前挑战
OMat24 数据集在构建过程中面临多个挑战。首先,密度泛函理论 (DFT) 计算的计算成本极高,限制了其在探索新材料组合搜索空间中的应用。其次,现有的大多数数据集和训练模型仍为专有,这使得研究社区难以在此基础上进一步发展。此外,OMat24 数据集仅包含周期性体结构,未考虑点缺陷、表面、非化学计量和低维结构等重要效应。最后,数据集中的计算设置与 Materials Project 的 PBE 和 PBE+U 计算设置有所不同,这需要在分析或训练模型时特别注意。
常用场景
经典使用场景
在材料科学领域,Open Materials 2024 (OMat24) 数据集的经典应用场景主要集中在加速新材料的发现与设计。通过整合超过1亿次密度泛函理论(DFT)计算,OMat24为研究人员提供了一个大规模、多样化的数据集,用于训练和验证机器学习模型。这些模型能够预测材料的形成能和稳定性,从而在广泛的化学空间中筛选出具有潜在应用价值的材料。
实际应用
在实际应用中,OMat24数据集被广泛用于开发和优化新材料,特别是在可再生能源存储和碳中和燃料生产领域。例如,研究人员利用OMat24数据集训练的模型来筛选和设计高效的催化剂材料,这些材料在太阳能电池和燃料电池中具有重要应用。此外,OMat24还支持了直接空气捕获吸附剂的发现,这对于减少大气中的二氧化碳浓度具有重要意义。
衍生相关工作
OMat24数据集的发布催生了一系列相关研究工作,特别是在图神经网络(GNN)和机器学习势能面的开发方面。许多研究团队基于OMat24数据集开发了新的模型和算法,这些模型在Matbench Discovery等基准测试中表现出色。此外,OMat24还促进了跨学科的合作,吸引了来自计算机科学、物理学和化学等领域的研究人员共同推动材料科学的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录