five

Awesome Materials & Chemistry Datasets

收藏
github2025-04-03 更新2025-04-07 收录
下载链接:
https://github.com/blaiszik/awesome-matchem-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个精选的材料科学和化学中最有用的数据集列表,用于训练机器学习和AI基础模型。包括实验、计算和文献挖掘的数据集,优先考虑开放访问资源和社区贡献。

A curated list of the most useful datasets in materials science and chemistry, intended for training machine learning and foundational AI models. This list covers datasets derived from experimental research, computational studies and literature mining, with priority placed on open-access resources and community-contributed materials.
创建时间:
2025-04-02
原始信息汇总

Awesome Materials & Chemistry Datasets 数据集概述

数据集简介

这是一个关于材料科学化学领域最有用的数据集的精选列表,特别关注用于训练机器学习AI基础模型的数据集。包括实验、计算和文献挖掘的数据集,优先考虑开放访问资源和社区贡献。

数据集分类

计算数据集 (Computational Datasets)

数据集名称 领域 大小 格式 许可证 访问方式 链接
OMat24 (Meta) 无机晶体 110M DFT条目 JSON/HDF5 CC BY 4.0 开放 OMat24
Materials Project (LBL) 无机晶体 500k+ 化合物 JSON/API CC BY 4.0 开放 materialsproject.org
Open Catalyst 2020 (OC20) 催化(表面) 1.2M 弛豫 JSON/HDF5 CC BY 4.0 开放 opencatalystproject.org
AFLOW 无机材料 3.5M 材料 REST API 开放 开放 aflow.org
OQMD 无机固体 1M+ 化合物 SQL/CSV 开放 开放 oqmd.org
JARVIS-DFT (NIST) 3D/2D材料 40k+ 条目 JSON/API 开放 开放 jarvis.nist.gov
Carolina Materials DB 假设晶体 214k 结构 JSON CC BY 4.0 开放 carolinamatdb.org
NOMAD 各种DFT/MD >19M 计算 JSON CC BY 4.0 开放 NOMAD Repository
MatPES DFT势能面 ~400,000 结构 JSON 开放 开放 MatPES
Vector-QM24 小有机和无机分子 836k 构象异构体 JSON Placeholder 开放 V-QM24
AIMNet2 Dataset 非金属化合物 20M 混合DFT计算 JSON 开放 开放 AIMNet
RDB7 小有机反应的能垒和焓 12k CCSD(T)-F12计算 CSV 开放 开放 Zenodo
RDB19-Rad 40种常见溶剂中有机反应的ΔG 5.6k DFT + COSMO-RS计算 CSV 开放 开放 Zenodo

实验数据集 (Experimental Datasets)

数据集名称 领域 大小 格式 许可证 访问方式 链接
Crystallography Open Database 晶体结构 523k+ 条目 CIF 公共领域 开放 crystallography.net
NIST ICSD (subset) 无机结构 ~290k 结构 CIF 专有 受限 icsd.products.fiz-karlsruhe.de
CSD (Cambridge) 有机晶体 ~1.3M 结构 CIF 专有 受限 ccdc.cam.ac.uk
opXRD 晶体结构 92552 (2179 标记) JSON CC BY 4.0 开放 zenodo.org

文献挖掘和文本数据集 (Literature-mined & Text Datasets)

数据集名称 领域 大小 格式 许可证 访问方式 链接
PubChem 分子和数据 119M 化合物 SMILES/SDF 公共领域 开放 pubchem.ncbi.nlm.nih.gov
USPTO Reactions 有机反应 1.8M 反应 RXN/SMILES 开放 开放 USPTO MIT
Open Reaction Database (ORD) 合成反应 ~1M 反应 JSON CC BY 4.0 开放 open-reaction-database.org
PatCID (IBM) 化学图像数据 81M 图像 / 13M 分子 PNG/SMILES 开放 开放 github.com/DS4SD/PatCID
MatScholar NLP语料库(材料) 5M+ 摘要 JSON/Graph 开放 开放 matscholar.com

专有数据集 (Proprietary Datasets)

数据集名称 领域 大小 访问方式 使用案例说明
CAS Registry 化学物质 250M+ 物质 专有 分子索引行业标准
Reaxys (Elsevier) 反应和性质 数百万反应 专有 丰富的文献反应数据
Citrine Informatics DB 实验材料 私有 专有 材料ML平台与行业数据
CSD (Cambridge) 有机晶体 1.3M+ 专有 金标准X射线结构
PoLyInfo 聚合物和性质 500k+ 数据点 专有 文献来源的聚合物性质

其他资源

许可证

该项目采用MIT许可证。每个数据集有其自己的许可证,请在项目中使用数据前检查源许可证。

致谢

感谢开放数据和科研社区,包括:

  • Meta AI FAIR
  • The Materials Data Facility / Foundry-ML
  • NIST JARVIS和Materials Project
  • LBL, MIT, CCDC, FIZ Karlsruhe
  • Open Catalyst, PubChem, ORD和AFLOW的贡献者
  • 开放化学工具包(RDKit, Open Babel)的开发者
搜集汇总
数据集介绍
main_image_url
构建方式
在材料科学与化学领域,数据集的构建采用了多维度的整合策略,涵盖计算模拟、实验测量以及文献挖掘三大来源。计算数据集主要通过密度泛函理论(DFT)、分子动力学(MD)等计算方法生成,如OMat24包含1.1亿条DFT计算条目;实验数据集则源自X射线衍射等实测技术,例如Crystallography Open Database收录52.3万条晶体结构数据;文献挖掘数据集则通过自然语言处理技术从科研文献中提取结构化信息,如MatScholar包含500万篇材料学摘要的语义分析结果。所有数据集均经过严格的元数据标注,包含领域分类、数据规模、存储格式和许可协议等关键信息。
特点
该数据集最显著的特征在于其跨学科的系统性整合,既包含传统晶体结构数据,也涵盖前沿的催化反应能垒计算数据。数据规模呈现显著梯度分布,从RDB7的1.2万条高精度CCSD(T)-F12计算数据,到Open Catalyst项目的120万次表面弛豫模拟,为不同精度需求的研究提供选择。数据格式兼容性突出,支持JSON、HDF5等机器学习友好格式,同时保留CIF、SMILES等专业化学标准格式。特别值得注意的是,85%的收录数据集采用CC BY 4.0等开放许可,如Materials Project的50万种化合物数据可通过API实时获取,体现了开放科学的理念。
使用方法
使用者可通过领域分类或数据类型进行多维度检索,计算数据集下设DFT、MD等子类,实验数据按测试方法分类。每个数据集条目均标注明确的访问链接和许可信息,如NOMAD数据库的1900万条计算数据可通过GUI界面交互查询。对于机器学习应用,建议优先选择HDF5格式的结构化数据,如OC20数据集已优化为可直接输入图神经网络的张量格式。社区贡献机制允许研究者通过GitHub提交PR新增数据集,需严格遵循包含数据规模、领域、格式等要素的元数据模板。需特别注意区分开放数据与专利数据的访问权限,如CSD数据库的有机晶体结构需通过剑桥数据中心申请授权。
背景与挑战
背景概述
Awesome Materials & Chemistry Datasets是一个精心策划的材料科学与化学领域数据集集合,旨在为机器学习和AI基础模型训练提供高质量的数据资源。该数据集由多个研究机构和社区贡献者共同维护,涵盖了计算、实验和文献挖掘等多种数据类型,特别注重开放获取资源的整合。其核心研究问题在于如何高效地组织和共享材料与化学领域的大规模数据,以支持可重复性研究和跨领域合作。自创建以来,该数据集已成为材料信息学和计算化学领域的重要参考资源,极大地推动了数据驱动的研究方法在这些领域的应用。
当前挑战
该数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,材料与化学数据的多样性和复杂性使得数据标准化和跨数据集整合成为主要难题,例如如何统一不同实验条件和计算方法生成的数据。此外,数据质量的不一致性和标注的缺失也限制了机器学习模型的应用效果。在构建过程中,数据集的开放获取与知识产权保护之间的平衡、大规模数据存储与分发的技术难题,以及如何持续更新和维护社区贡献的数据资源,都是需要克服的关键挑战。
常用场景
经典使用场景
在材料科学与化学领域,Awesome Materials & Chemistry Datasets为机器学习与人工智能基础模型训练提供了丰富的实验、计算和文献挖掘数据资源。该数据集广泛应用于无机晶体结构预测、催化表面反应模拟以及有机分子性质分析等研究场景。通过整合OMat24、Materials Project和Open Catalyst 2020等高质量计算数据集,研究者能够高效开展材料性能预测与分子设计工作。
解决学术问题
该数据集有效解决了材料发现中的高通量筛选难题,为密度泛函理论计算提供了标准化基准。其包含的110万次催化弛豫数据(OC20)显著降低了表面反应模拟的计算成本,而214k种假设晶体结构(Carolina DB)则为逆向材料设计提供了全新范式。这些资源共同推动了数据驱动的新型材料开发范式转型。
衍生相关工作
基于该数据集衍生的经典工作包括:Meta AI开发的晶体生成扩散模型(OMat24)、伯克利实验室的材料基因工程(Materials Project API),以及IBM的化学反应预测系统(PatCID)。NIST构建的JARVIS-DFT平台进一步扩展了二维材料特性数据库,而Open Reaction Database则建立了反应机理的标准化表征框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作