five

crystal_untagged_800K

收藏
github2022-12-09 更新2024-05-31 收录
下载链接:
https://github.com/kdmsit/crystal_untagged_800K
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含800K未标记的晶体图数据,这些数据是从Materials Project (MP)和OQMD两个流行的材料数据库中精心挑选出来的,用于预训练CrysGNN模型。

This repository contains 800K unlabeled crystal graph data, meticulously curated from two popular materials databases, Materials Project (MP) and OQMD, for the purpose of pre-training the CrysGNN model.
创建时间:
2022-11-28
原始信息汇总

数据集概述

名称: crystal_untagged_800K

描述: 该数据集包含800,000个未标记的晶体图数据,这些数据是从Materials Project (MP) 和 OQMD两个流行的材料数据库中筛选而来,用于预训练CrysGNN模型。此数据集是CrysGNN论文(AAAI-2023)的一部分。

数据来源:

  • Materials Project (MP)
  • OQMD
搜集汇总
数据集介绍
main_image_url
构建方式
crystal_untagged_800K数据集的构建基于材料科学领域的两大权威数据库——Materials Project (MP) 和 OQMD。研究者从这两个数据库中精心筛选并整合了约80万条未标记的晶体图数据,旨在为CrysGNN模型的预训练提供高质量的基础数据。这一过程不仅确保了数据的广泛性和代表性,还通过严格的筛选标准保证了数据的科学性和可靠性。
特点
crystal_untagged_800K数据集以其大规模和多样性著称,涵盖了广泛的晶体结构信息。这些数据未经过标签处理,为研究者提供了极大的灵活性,使其能够根据具体的研究需求进行自定义标注和分析。此外,数据集的来源权威且透明,确保了其在材料科学研究中的可信度和应用价值。
使用方法
crystal_untagged_800K数据集主要用于CrysGNN模型的预训练,研究者可以通过加载数据集中的晶体图数据,结合深度学习框架进行模型的训练和优化。数据集的使用方法简单直观,用户只需按照提供的文档说明,即可轻松访问和处理数据。此外,数据集还支持自定义标注,为不同研究场景下的模型训练提供了便利。
背景与挑战
背景概述
crystal_untagged_800K数据集由CrysGNN研究团队在AAAI-2023会议上首次发布,旨在为晶体图神经网络(CrysGNN)的预训练提供支持。该数据集从Materials Project(MP)和OQMD两大材料数据库中提取了约80万条未标记的晶体图数据,涵盖了广泛的晶体结构信息。这一数据集的构建不仅推动了晶体材料预测领域的发展,还为材料科学中的高通量计算和机器学习应用提供了重要资源。CrysGNN模型通过该数据集实现了对晶体性质的精确预测,显著提升了材料设计效率。
当前挑战
crystal_untagged_800K数据集在构建和应用过程中面临多重挑战。首先,晶体数据的多样性和复杂性使得数据清洗和标准化成为一项艰巨任务,尤其是在从不同数据库中整合数据时,格式和属性的不一致性增加了处理难度。其次,未标记数据的特性要求模型具备强大的自监督学习能力,这对算法的设计和优化提出了更高要求。此外,晶体图数据的规模庞大,计算资源和存储需求成为限制因素,如何在有限资源下高效处理和分析数据是亟待解决的问题。这些挑战不仅考验了数据集的构建技术,也为晶体材料预测领域的研究提供了新的方向。
常用场景
经典使用场景
crystal_untagged_800K数据集在材料科学领域中被广泛用于晶体结构预测和材料性能优化研究。通过提供800K未标记的晶体图数据,该数据集为研究人员提供了一个丰富的资源,用于训练和验证图神经网络模型,如CrysGNN,以探索晶体材料的复杂结构和性质。
解决学术问题
该数据集解决了材料科学中晶体结构预测的难题,尤其是在缺乏标记数据的情况下。通过整合来自Materials Project和OQMD两大材料数据库的数据,crystal_untagged_800K为研究人员提供了一个大规模、多样化的数据集,显著提升了晶体结构预测模型的泛化能力和准确性。
衍生相关工作
crystal_untagged_800K数据集的发布催生了一系列相关研究,特别是在图神经网络和材料科学交叉领域。基于该数据集,研究人员开发了多种先进的晶体结构预测模型,如CrysGNN,这些模型不仅在学术界引起了广泛关注,也在工业界得到了实际应用,推动了材料科学的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作