OpenCSP
收藏arXiv2025-09-12 更新2025-11-24 收录
下载链接:
https://www.aissquare.com/datasets/detail?pageType=datasets&name=OpenCSP&id=369
下载链接
链接失效反馈官方服务:
资源简介:
OpenCSP数据集是一个专门为晶体结构预测任务设计的开放源数据集,适用于从常压到高压的广泛压力条件。该数据集由约152万种DFT标记的配置组成,这些配置是通过随机高压采样并利用不确定性引导的并发学习策略迭代优化得到的。数据集涵盖了化学元素从氢到铋,原子数从5到32个/单元,并具有广泛的应力分布,这对于在极端压力条件下进行准确的压力和焓预测至关重要。OpenCSP数据集与一系列在数据集上训练的潜在能量模型一起提供,这些模型在高压相预测方面达到了与在更大数据集上训练的模型相当或更好的性能。
提供机构:
中国科学计算物理研究所, 中国吉林省吉林大学物理学院
创建时间:
2025-09-12
搜集汇总
数据集介绍

构建方式
在凝聚态物理与材料科学领域,高压晶体结构预测对探索极端条件下的物相行为至关重要。OpenCSP数据集的构建采用了基于CALYPSO的随机化高压采样策略,结合DP-GEN并发学习框架,通过113轮迭代生成152万余个结构。该方法通过压力感知的主动学习机制,动态筛选构型空间中的高压低密度区域,优先对不确定性高的压缩态进行DFT标记,有效抑制冗余计算,实现了在有限数据规模下对0-100吉帕压力区间的近乎连续覆盖。
特点
该数据集的核心优势在于其压力分辨能力与构型多样性。通过无偏随机采样与迭代优化,OpenCSP突破了传统数据集中近平衡态构型主导的局限,系统收录了高压稳定的奇异化学计量比与密堆积配位模式。其应力分布呈现从-10至100吉帕的均匀采样特性,显著优于现有数据集的近零压力聚集现象。尽管训练集规模较主流模型小1-2个数量级,但通过针对性强化高压区域的能量-力-维里张量联合精度,实现了在极端压力下焓值排序与稳定性预测的卓越性能。
使用方法
该数据集为高压材料模拟提供了标准化工作流程。用户可通过集成的DPA3架构模型直接进行压力约束结构优化,支持在指定外压下完成晶体弛豫与焓值计算。典型应用包括:基于CALYPSO的自动结构搜索、跨压力区间的相变路径分析、以及新型高压化合物的稳定性评估。模型展现出优异的尺寸外推能力,在超越训练集32原子限制的体系中仍保持精度,其开放的数据格式与模型接口支持与主流材料模拟软件链无缝集成,为极端条件下材料发现提供可复现的计算基础。
背景与挑战
背景概述
高压晶体结构预测作为凝聚态物理与行星科学的核心工具,其发展长期受限于传统模型在极端压力下的精度衰减问题。由中国科学院、吉林大学等机构联合开发的OpenCSP数据集于2025年问世,通过融合随机化高压采样与不确定性引导的并发学习策略,构建了覆盖环境压力至百吉帕斯卡区间的150万组晶体结构数据。该框架通过联合优化能量、力和应力预测精度,显著提升了高压相变材料与致密配位结构的发现效率,为极端条件下自主材料探索建立了新范式。
当前挑战
高压晶体结构预测领域面临双重挑战:在科学问题层面,传统模型对压力稳定化学计量比与稠密配位模式的表征能力不足,导致高压焓值排序精度受限;在数据构建层面,现有训练集普遍存在高压区域覆盖稀疏、应力张量预测误差累积等问题。OpenCSP通过压力感知的主动学习机制应对这些挑战,但其数据规模较主流模型缩小1-2个数量级,需在有限样本下实现跨压力区间的泛化能力,同时需解决高压区电子结构重构与化学键演化的精准建模难题。
常用场景
经典使用场景
在凝聚态物理与行星科学领域,高压晶体结构预测是探索材料相变行为的关键手段。OpenCSP数据集通过集成随机化高压采样与不确定性引导的并发学习策略,构建了覆盖常压至百吉帕压力区间的原子构型库。其经典应用场景包括利用深度势能模型对多元化合物进行高压焓值排序,精准识别压力稳定相,例如在200吉帕条件下成功预测超硬碳同素异形体与富氢超导化合物的晶体构型。
衍生相关工作
基于OpenCSP的开源特性,研究界衍生出多项创新工作。例如将压力感知采样策略扩展至多组分高熵合金体系,开发出适用于兆帕级压力预测的改进型图神经网络架构。另有团队结合生成式扩散模型,构建了面向行星内部极端环境的材料设计平台,实现了对地核条件下铁镁硅酸盐矿物的逆向设计,推动了计算行星物理学的发展。
数据集最近研究
最新研究方向
在凝聚态物理与材料科学领域,高压晶体结构预测(CSP)已成为探索极端条件下新物相与功能材料的前沿方向。OpenCSP数据集通过融合随机化高压采样与不确定性引导的并发学习策略,构建了覆盖常压至百吉帕压力区间的原子尺度数据库,显著提升了能量、力和应力张量的联合预测精度。这一突破解决了传统大原子模型在高压下应力精度衰减与化学计量覆盖不足的瓶颈,推动了超硬材料、高临界温度超导体等高压稳定相的高通量发现。其开源性特质为极端条件下自主材料设计提供了可复现的基准,正引领高压计算范式向数据驱动与跨尺度协同的方向演进。
相关研究论文
- 1通过中国科学计算物理研究所, 中国吉林省吉林大学物理学院 · 2025年
以上内容由遇见数据集搜集并总结生成



