CSPBENCH
收藏arXiv2024-06-30 更新2024-07-04 收录
下载链接:
https://github.com/usccolumbia/cspbenchmark
下载链接
链接失效反馈官方服务:
资源简介:
CSPBENCH数据集由南卡罗来纳大学开发,专门用于晶体结构预测(CSP)领域的算法评估。该数据集包含180个精心挑选的晶体结构,涵盖多种算法类型,如基于模板的CSP算法、基于机器学习的CSP算法等。数据集的创建过程结合了多种优化算法和机器学习技术,旨在通过量化性能指标来评估和比较不同CSP算法的准确性和效率。CSPBENCH数据集的应用领域广泛,主要用于新材料发现,特别是在需要精确预测晶体结构以指导材料设计和工业应用的场景中。
The CSPBENCH dataset was developed by the University of South Carolina, specifically designed for algorithm evaluation in the field of crystal structure prediction (CSP). This dataset includes 180 carefully selected crystal structures, covering diverse algorithm types such as template-based CSP algorithms and machine learning-based CSP algorithms. The dataset creation process integrates multiple optimization algorithms and machine learning techniques, with the goal of evaluating and comparing the accuracy and efficiency of different CSP algorithms via quantified performance metrics. The CSPBENCH dataset has broad application scenarios, primarily used in new material discovery, especially in cases where accurate crystal structure prediction is required to guide material design and industrial applications.
提供机构:
南卡罗来纳大学
创建时间:
2024-06-30
原始信息汇总
CSPBenchmark: 晶体结构预测算法基准
主要晶体结构预测软件概述
| 算法 | 年份 | 类别 | 开源 | URL 链接 | 编程语言 |
|---|---|---|---|---|---|
| USPEX | 2006 | De novo (DFT) | 否 | link | Matlab |
| CALYPSO* | 2010 | De novo (DFT) | 否 | link | Python |
| ParetoCSP* | 2024 | MOGA+MLP | 是 | link | Python |
| GNOA* | 2022 | BO/PSO + MLP | 是 | link | Python |
| TCSP* | 2022 | Template | 是 | link | Python |
| CSPML* | 2022 | Template | 是 | link | Python |
| GATor | 2018 | GA + FHI potential | 是 | link | Python |
| AiRss | 2011 | Random + DFT or pair Potential | 是 | link | Fortran |
| GOFEE | 2020 | ActiveLearning + Gaussian Pot. | 是 | link | Python |
| AGOX* | 2022 | Search + Gaussian Potential | 是 | link | Python |
| GASP | 2007 | GA + DFT | 是 | link | Java |
| M3GNet | 2022 | Relax with MLP | 是 | link | Python |
| ASLA | 2020 | NN + RL | 否 | link | N/A |
| CrySPY | 2023 | GA/BO + DFT | 是 | link | Python |
| XtalOpt | 2011 | GA + DFT | 是 | link | C++ |
| AlphaCrystal* | 2023 | GA + DL | 是 | link | Python |
晶体结构预测算法在所有测试结构上的性能比较
使用来自 CSPBenchMetrics 的晶体结构预测性能指标。
排名分数计算代码显示在代码文件夹 Compute-Ranking-Scores。
CSPML、ParetoCSP、AGOX-pt 和 CALYPSO 算法的指标距离
| 算法 | CSPML | ParetoCSP | AGOX-pt | CALYPSO | ||||
|---|---|---|---|---|---|---|---|---|
| 测试样本 | ED | HD | ED | HD | ED | HD | ED | HD |
| Ca3SnO | 0.01 | 0.02 | 0.01 | 0.02 | 5.50 | 9.34 | 0.01 | 2.41 |
| CoNiSn | 34.15 | 4.33 | 0.01 | 0.06 | 7.26 | 7.30 | 34.55 | 6.68 |
| CoTe | 0.18 | 1.52 | 0.20 | 2.33 | 6.88 | 9.90 | 0.11 | 2.38 |
| Cr3Ga | 31.78 | 2.79 | 0.12 | 1.62 | 11.95 | 6.62 | 16.13 | 4.07 |
| Hf2Ni | 0.05 | 5.58 | 52.93 | 3.40 | 10.94 | 8.03 | 0.09 | 4.18 |
| HfCo2Sn | 0.01 | 0.04 | 0.15 | 5.29 | 5.18 | 8.88 | 29.31 | 3.46 |
| HfMn2 | 0.03 | 0.15 | 59.73 | 5.53 | 19.92 | 7.21 | 116.21 | 5.04 |
| InHg | 22.54 | 8.61 | 0.14 | 6.05 | 0.38 | 7.13 | 0.02 | 4.51 |
| Li2CuSn | 0.44 | 0.12 | 0.05 | 5.51 | 2.82 | 8.76 | 13.14 | 3.54 |
| LiMg2Ga | 0.00 | 0.03 | 0.13 | 4.48 | 8.70 | 8.87 | 8.60 | 5.33 |
| MgCu4Sn | 0.04 | 0.09 | 0.51 | 2.74 | 5.65 | 8.83 | 67.92 | 5.34 |
| MgInCu4 | 0.06 | 3.07 | 0.47 | 3.69 | 5.92 | 9.65 | 20.48 | 7.26 |
| NaGa4 | 0.05 | 5.22 | 0.05 | 2.10 | 3.52 | 7.42 | 0.10 | 2.24 |
| ScCu | 0.00 | 0.01 | 0.00 | 0.01 | 5.39 | 11.77 | 0.01 | 1.70 |
| SrGa4 | 0.02 | 5.43 | 0.05 | 2.27 | 4.10 | 9.97 | 15.76 | 6.41 |
| SrGaCu2 | 0.78 | 4.79 | 0.30 | 9.45 | 3.27 | 8.55 | 13.91 | 10.39 |
| Ti2Cd | 16.18 | 2.04 | 0.03 | 1.46 | 7.49 | 9.34 | 16.66 | 3.57 |
| TiGa3 | 0.02 | 2.44 | 0.01 | 1.50 | 1.48 | 9.60 | 0.09 | 2.67 |
| YAl3 | 19.39 | 11.76 | 1.41 | 12.24 | 10.72 | 9.55 | 38.98 | 13.77 |
| YHg2 | 8.41 | 5.83 | 0.02 | 1.74 | 3.07 | 8.98 | 0.00 | 1.75 |
| ZnCdPt2 | 0.29 | 2.99 | 0.04 | 2.04 | 4.85 | 8.63 | 0.03 | 0.13 |
| ZnCO3 | 0.08 | 1.31 | 8.88 | 4.71 | 6.79 | 8.53 | 0.54 | 4.06 |
| ZrHg | 9.16 | 2.69 | 0.06 | 2.15 | 3.09 | 9.45 | 9.21 | 2.30 |
| # of Best | 12 | 11 | 10 | 8 | 1 | 2 | 5 | 3 |
所有算法的参数和配置
参数和配置的详细信息显示在图像 parameters1.png。
本工作中使用的180个基准晶体的详细信息
测试数据可在 CSPbenchmark_test_data.csv 下载。
| 材料ID | 原始公式 | 站点数量 | 空间群 | 晶系 | 类别 |
|---|---|---|---|---|---|
| mp-2334 | DyCu | 2 | 221 | Cubic | binary_easy |
| mp-2226 | DyPd | 2 | 221 | Cubic | binary_easy |
| mp-1121 | GaCo | 2 | 221 | Cubic | binary_easy |
| mp-2735 | PaO | 2 | 225 | Cubic | binary_easy |
| mp-1169 | ScCu | 2 | 221 | Cubic | binary_easy |
| mp-30746 | YIr | 2 | 221 | Cubic | binary_easy |
| mp-24658 | SmH2 | 3 | 225 | Cubic | binary_easy |
| mp-20225 | CePb3 | 4 | 221 | Cubic | binary_easy |
| mp-788 | Co2Te2 | 4 | 194 | Hexagonal | binary_easy |
| mp-20176 | DyPb3 | 4 | 221 | Cubic | binary_easy |
| mp-1231 | Cr6Ga2 | 8 | 223 | Cubic | binary_easy |
| mp-12570 | ThB12 | 13 | 225 | Cubic | binary_easy |
| mp-13452 | BePd2 | 3 | 139 | Tetragonal | binary_hard |
| mp-11359 | Ga2Cu | 3 | 123 | Tetragonal | binary_hard |
| mp-1995 | PrC2 | 3 | 139 | Tetragonal | binary_hard |
| mp-30501 | Ti2Cd | 3 | 139 | Tetragonal | binary_hard |
| mp-30789 | U2Mo | 3 | 139 | Tetragonal | binary_hard |
| mp-454 | NaGa4 | 5 | 139 | Tetragonal | binary_hard |
| mp-1827 | SrGa4 | 5 | 139 | Tetragonal | binary_hard |
| mp-2129 | Nd2Ge4 | 6 | 141 | Tetragonal | binary_hard |
| mp-30682 | ZrGa | 8 | 141 | Tetragonal | binary_hard |
| mp-2128 | Sn8Pd2 | 10 | 68 | Orthorhombic | binary_hard |
| mp-1208467 | Tb8Al2 | 10 | 227 | Cubic | binary_hard |
| mp-640079 | Mn9Au3 | 12 | 123 | Tetragonal | binary_hard |
| mp-20132 | InHg | 2 | 166 | Trigonal | binary_medium |
| mp-2209 | CeGa2 | 3 | 191 | Hexagonal | binary_medium |
| mp-30497 | TbCd2 | 3 | 191 | Hexagonal | binary_medium |
| mp-30725 | YHg2 | 3 | 191 | Hexagonal | binary_medium |
| mp-2731 | TiGa3 | 4 | 139 | Tetragonal | binary_medium |
| mp-2510 | ZrHg | 4 | 123 | Tetragonal | binary_medium |
| mp-2740 | ErCo5 | 6 | 191 | Hexagonal | binary_medium |
| mp-570875 | Ga4Os2 | 6 | 70 | Orthorhombic | binary_medium |
| mp-861 | Hf4Ni2 | 6 | 140 | Tetragonal | binary_medium |
| mp-1566 | SmFe5 | 6 | 191 | Hexagonal | binary_medium |
| mp-2387 | Th4Zn2 | 6 | 140 | Tetragonal | binary_medium |
| mp-1607 | YbCu5 | 6 | 191 | Hexagonal | binary_medium |
| mp-8882 | Ga2P2 | 4 | 186 | Hexagonal | polymorph_binary |
| mp-13181 | LaF3 | 4 | 225 | Cubic | polymorph_binary |
| mp-568382 | Mn2Bi2 | 4 | 194 | Hexagonal | polymorph_binary |
| mp-1004 | Nb3Si | 4 | 225 | Cubic | polymorph_binary |
| mp-2067 | Th2Ga4 | 6 | 141 | Tetragonal | polymorph_binary |
| mp-2178 | Yb2Ga4 | 6 |
搜集汇总
数据集介绍

构建方式
CSPBENCH数据集通过精心挑选的180个晶体结构构建而成,这些结构来自Materials Project数据库,涵盖了二元、三元和四元化合物,确保了多样性和代表性。数据集的构建过程中,考虑了晶体系统的对称性、原子比例、空间群以及单胞的形状和尺寸等因素,以确保测试集能够全面评估晶体结构预测算法的性能。
特点
CSPBENCH数据集的显著特点在于其广泛的多样性和复杂性,涵盖了从简单到复杂的多种晶体结构。数据集中包含了不同空间群和晶体系统的结构,确保了测试集的全面性。此外,数据集还特别关注了多态性结构,即同一化学成分可能存在多种晶体结构,这为评估算法的鲁棒性和准确性提供了挑战。
使用方法
CSPBENCH数据集可用于评估和比较多种晶体结构预测算法,包括基于模板的方法、机器学习方法和密度泛函理论(DFT)方法。使用者可以通过计算预测结构与真实结构之间的距离指标(如M3GNet能量距离、Chamfer距离等)来评估算法的性能。此外,数据集还提供了详细的评估指标和排名系统,帮助研究者更好地理解不同算法的优缺点,并为未来的算法改进提供参考。
背景与挑战
背景概述
晶体结构预测(Crystal Structure Prediction, CSP)在材料科学中具有重要意义,尤其是在发现具有广泛工业应用的新材料方面。然而,尽管该领域已有数十年的发展,但缺乏一套完善的基准数据集、定量性能评估指标以及对当前技术状态的系统评估。CSPBENCH数据集由南卡罗来纳大学、江苏师范大学、芝加哥大学等机构的研究人员共同开发,旨在填补这一空白。该数据集包含了180个经过精心挑选的晶体结构,涵盖二元、三元和四元化合物,旨在为CSP算法提供一个全面的基准测试平台。CSPBENCH不仅提供了13种最先进的CSP算法的性能评估,还引入了新的性能度量标准,以量化算法的准确性、效率和可靠性。
当前挑战
CSPBENCH数据集的构建和应用面临多重挑战。首先,晶体结构预测的核心问题在于如何准确预测复杂化合物的晶体结构,尤其是在缺乏实验数据的情况下。其次,构建过程中需要考虑晶体结构的多样性,包括不同的空间群、晶系以及原子数目,以确保数据集的广泛代表性。此外,CSP算法的性能评估需要克服晶体结构的多态性问题,即同一化学成分可能存在多种晶体结构。最后,CSP算法的性能不仅依赖于机器学习势函数的质量,还取决于全局优化算法的能力,这使得算法的性能评估更加复杂。
常用场景
经典使用场景
CSPBENCH数据集的经典使用场景在于评估和比较多种晶体结构预测(CSP)算法。该数据集包含了180个精心挑选的晶体结构,涵盖了二元、三元和四元化合物,具有不同的空间群和晶系。通过使用CSPBENCH,研究者可以对现有的CSP算法进行基准测试,评估其在不同复杂度结构上的预测性能,从而为材料发现提供有力的工具。
实际应用
CSPBENCH数据集在实际应用中具有广泛的前景,特别是在材料科学和工业领域。通过该数据集,研究者可以快速筛选和预测具有特定物理、化学或机械性能的新材料。例如,在电池材料、催化剂和半导体等领域,CSPBENCH可以帮助研究人员快速找到具有潜在应用价值的晶体结构,从而加速新材料的开发和商业化进程。
衍生相关工作
CSPBENCH数据集的发布催生了一系列相关的经典工作。例如,基于该数据集的研究揭示了模板驱动和机器学习势能驱动的CSP算法在不同复杂度结构上的表现差异。此外,CSPBENCH还推动了图神经网络(GNN)和深度学习在晶体结构预测中的应用,进一步提升了算法的预测精度和效率。这些衍生工作不仅丰富了CSP领域的研究内容,还为未来的材料发现提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



