Kaipengm2/CrystalX-dataset

Name: Kaipengm2/CrystalX-dataset
Creator: Kaipengm2
Published: 2026-04-25 15:55:18
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Kaipengm2/CrystalX-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CrystalX数据集是一个用于晶体结构分析和深度学习训练的预处理数据集。数据集包含从Crystallography Open Database (COD)和CrystalX预处理中获得的晶体学数据，格式为Python字典，主要字段包括电子密度峰值的坐标(`pos`)、输入峰值描述符(`z`)、重原子标签(`gt`)、对称扩展上下文的重原子(`equiv_gt`)和氢计数标签(`hydro_gt`)。数据集的文件包括压缩的`equiv_pt.zip`、基于出版年份的分割文件`splits/sorted_by_journal_year.txt`和许可证文件。该数据集主要用于训练和评估高精度晶体结构分析的深度学习模型。

The CrystalX Dataset is a preprocessed dataset for crystallography structure analysis and deep learning training. It contains crystallography data derived from the Crystallography Open Database (COD) and CrystalX preprocessing, formatted as Python dictionaries. Key fields include the Cartesian coordinates of coarse electron-density peaks (`pos`), input peak descriptors (`z`), heavy-atom labels (`gt`), symmetry-expanded context heavy atoms (`equiv_gt`), and hydrogen-count labels (`hydro_gt`). The dataset files include the compressed `equiv_pt.zip`, a split file `splits/sorted_by_journal_year.txt` based on publication years, and a license file. This dataset is primarily used for training and evaluating deep learning models for high-accuracy crystal structure analysis.

提供机构：

Kaipengm2

搜集汇总

数据集介绍

构建方式

CrystalX-dataset源自Crystallography Open Database（COD）这一开放获取晶体学数据库，经过CrystalX预处理流程精心构建。数据集的核心在于从SHELXT初始定相结果中提取粗电子密度峰，将其笛卡尔坐标（单位为埃）及对应的峰描述符作为输入特征。峰描述符根据已知或估算的元素组成排序，或直接采用SHELXT的初始元素分配，从而保留了从强散射重元素到轻元素的层级信息。此外，数据集的划分基于出版物年份元数据，确保了时间序列上的合理分布。

特点

该数据集的一大特色是提供了多层次的监督标签，包括重原子标签、经对称性扩展的重原子上下文以及氢原子计数标签，这为晶体结构解析任务提供了丰富的学习目标。每个数据样本中的峰坐标按强度从强到弱排序，反映了电子密度峰的物理重要性。数据集覆盖1994至2024年的晶体学数据，规模在10K至100K之间，兼具时间跨度和数据量优势，特别适合用于训练深度学习模型以实现高精度的晶体结构分析。

使用方法

使用前需解压equiv_pt.zip文件得到equiv_pt/文件夹，该文件夹内每个equiv_*.pt文件可通过torch.load加载为Python字典。训练时，推荐运行crystalx_train库中的训练器脚本，并指定数据目录和划分文件路径。例如，执行命令`python -m crystalx_train.trainers.trainer_heavy --pt_dir equiv_pt --txt_path splits/sorted_by_journal_year.txt`即可启动训练流程。该数据集的设计充分考虑了与现有晶体学工具链的兼容性，便于研究人员快速集成。

背景与挑战

背景概述

CrystalX-dataset是面向晶体学与材料科学领域的一项关键数据资源，由Zheng Kaipeng、Huang Weiran、Ouyang Wanli、Zhong Han-Sen及Li Yuqiang等研究人员于2025年构建，源自Crystallography Open Database（COD）并经过CrystalX预处理流程精炼而成。该数据集旨在解决X射线衍射（XRD）数据中精确晶体结构解析的瓶颈问题，覆盖1994至2024年间海量晶体学记录，为深度学习模型从粗电子密度峰重构原子位置提供标准化训练与评估素材。自发布以来，该数据集在材料科学、计算化学及深度学习交叉领域产生了重要影响，推动了高精度结构分析方法的自动化与智能化发展。

当前挑战

CrystalX-dataset所应对的领域问题挑战在于：传统晶体结构解析依赖人工干预与经验规则，难以高效处理低质量衍射数据或复杂无序结构，而数据驱动的深度学习方法需克服从粗电子密度峰到精确原子标签的模糊映射难题。构建过程中面临的挑战包括：整合来自COD的大规模异构晶体学数据需严格预处理与格式统一；SHELXT初始解释中峰值排序与元素分配的不确定性增加了标注难度；数据分割需考虑出版年限以避免时间泄露，确保模型泛化评估的公平性。这些挑战共同制约着数据集在实现鲁棒且普适的结构预测目标上的应用效能。

常用场景

经典使用场景

CrystalX数据集的核心应用场景在于利用深度学习模型解析X射线衍射实验中的粗粒度电子密度峰，从而自动重构晶体结构中的重原子位置与种类。该数据集提供了从SHELXT初始定相结果中提取的处理后数据，包含电子密度峰的三维坐标与峰强度描述符，研究人员可通过训练图神经网络或等变模型，将无序的粗峰映射为对称性约束下的精确原子模型，尤其适用于自动化晶体学定相与结构精修任务。

解决学术问题

该数据集主要解决了传统晶体结构解析中依赖人工经验与反复试错的瓶颈问题。在学术研究中，SHELXT等工具虽能给出初始电子密度图，但将粗峰正确识别为具体原子种类并建立完整结构模型仍需专家介入。CrystalX通过提供大量高质量标注的衍射数据与对应原子标签，使得深度模型能够学习从粗峰到精确结构的端到端映射，显著降低了结构解析的门槛，加速了新材料发现与晶体学自动化流程的推进。

衍生相关工作

CrystalX数据集的发布催生了一系列与之相关的深度晶体学研究工作。研究者基于该数据集探索了等变神经网络（如SE(3)-Transformer、E(3) GNN）在对称性感知的原子位置预测上的应用，开发了从粗电子密度峰直接预测氢原子位置与计数的新框架。此外，该数据集也被用于评估生成式模型在晶体结构补全与消歧任务中的表现，推动了结合物理先验与数据驱动方法的自动化结构解析范式的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集