five

CSPBENCH|晶体结构预测数据集|算法评估数据集

收藏
arXiv2024-06-30 更新2024-07-04 收录
晶体结构预测
算法评估
下载链接:
https://github.com/usccolumbia/cspbenchmark
下载链接
链接失效反馈
资源简介:
CSPBENCH数据集由南卡罗来纳大学开发,专门用于晶体结构预测(CSP)领域的算法评估。该数据集包含180个精心挑选的晶体结构,涵盖多种算法类型,如基于模板的CSP算法、基于机器学习的CSP算法等。数据集的创建过程结合了多种优化算法和机器学习技术,旨在通过量化性能指标来评估和比较不同CSP算法的准确性和效率。CSPBENCH数据集的应用领域广泛,主要用于新材料发现,特别是在需要精确预测晶体结构以指导材料设计和工业应用的场景中。
提供机构:
南卡罗来纳大学
创建时间:
2024-06-30
原始信息汇总

CSPBenchmark: 晶体结构预测算法基准

主要晶体结构预测软件概述

算法 年份 类别 开源 URL 链接 编程语言
USPEX 2006 De novo (DFT) link Matlab
CALYPSO* 2010 De novo (DFT) link Python
ParetoCSP* 2024 MOGA+MLP link Python
GNOA* 2022 BO/PSO + MLP link Python
TCSP* 2022 Template link Python
CSPML* 2022 Template link Python
GATor 2018 GA + FHI potential link Python
AiRss 2011 Random + DFT or pair Potential link Fortran
GOFEE 2020 ActiveLearning + Gaussian Pot. link Python
AGOX* 2022 Search + Gaussian Potential link Python
GASP 2007 GA + DFT link Java
M3GNet 2022 Relax with MLP link Python
ASLA 2020 NN + RL link N/A
CrySPY 2023 GA/BO + DFT link Python
XtalOpt 2011 GA + DFT link C++
AlphaCrystal* 2023 GA + DL link Python

晶体结构预测算法在所有测试结构上的性能比较

使用来自 CSPBenchMetrics 的晶体结构预测性能指标。

排名分数计算代码显示在代码文件夹 Compute-Ranking-Scores

CSPML、ParetoCSP、AGOX-pt 和 CALYPSO 算法的指标距离

算法 CSPML ParetoCSP AGOX-pt CALYPSO
测试样本 ED HD ED HD ED HD ED HD
Ca3SnO 0.01 0.02 0.01 0.02 5.50 9.34 0.01 2.41
CoNiSn 34.15 4.33 0.01 0.06 7.26 7.30 34.55 6.68
CoTe 0.18 1.52 0.20 2.33 6.88 9.90 0.11 2.38
Cr3Ga 31.78 2.79 0.12 1.62 11.95 6.62 16.13 4.07
Hf2Ni 0.05 5.58 52.93 3.40 10.94 8.03 0.09 4.18
HfCo2Sn 0.01 0.04 0.15 5.29 5.18 8.88 29.31 3.46
HfMn2 0.03 0.15 59.73 5.53 19.92 7.21 116.21 5.04
InHg 22.54 8.61 0.14 6.05 0.38 7.13 0.02 4.51
Li2CuSn 0.44 0.12 0.05 5.51 2.82 8.76 13.14 3.54
LiMg2Ga 0.00 0.03 0.13 4.48 8.70 8.87 8.60 5.33
MgCu4Sn 0.04 0.09 0.51 2.74 5.65 8.83 67.92 5.34
MgInCu4 0.06 3.07 0.47 3.69 5.92 9.65 20.48 7.26
NaGa4 0.05 5.22 0.05 2.10 3.52 7.42 0.10 2.24
ScCu 0.00 0.01 0.00 0.01 5.39 11.77 0.01 1.70
SrGa4 0.02 5.43 0.05 2.27 4.10 9.97 15.76 6.41
SrGaCu2 0.78 4.79 0.30 9.45 3.27 8.55 13.91 10.39
Ti2Cd 16.18 2.04 0.03 1.46 7.49 9.34 16.66 3.57
TiGa3 0.02 2.44 0.01 1.50 1.48 9.60 0.09 2.67
YAl3 19.39 11.76 1.41 12.24 10.72 9.55 38.98 13.77
YHg2 8.41 5.83 0.02 1.74 3.07 8.98 0.00 1.75
ZnCdPt2 0.29 2.99 0.04 2.04 4.85 8.63 0.03 0.13
ZnCO3 0.08 1.31 8.88 4.71 6.79 8.53 0.54 4.06
ZrHg 9.16 2.69 0.06 2.15 3.09 9.45 9.21 2.30
# of Best 12 11 10 8 1 2 5 3

所有算法的参数和配置

参数和配置的详细信息显示在图像 parameters1.png

本工作中使用的180个基准晶体的详细信息

测试数据可在 CSPbenchmark_test_data.csv 下载。

材料ID 原始公式 站点数量 空间群 晶系 类别
mp-2334 DyCu 2 221 Cubic binary_easy
mp-2226 DyPd 2 221 Cubic binary_easy
mp-1121 GaCo 2 221 Cubic binary_easy
mp-2735 PaO 2 225 Cubic binary_easy
mp-1169 ScCu 2 221 Cubic binary_easy
mp-30746 YIr 2 221 Cubic binary_easy
mp-24658 SmH2 3 225 Cubic binary_easy
mp-20225 CePb3 4 221 Cubic binary_easy
mp-788 Co2Te2 4 194 Hexagonal binary_easy
mp-20176 DyPb3 4 221 Cubic binary_easy
mp-1231 Cr6Ga2 8 223 Cubic binary_easy
mp-12570 ThB12 13 225 Cubic binary_easy
mp-13452 BePd2 3 139 Tetragonal binary_hard
mp-11359 Ga2Cu 3 123 Tetragonal binary_hard
mp-1995 PrC2 3 139 Tetragonal binary_hard
mp-30501 Ti2Cd 3 139 Tetragonal binary_hard
mp-30789 U2Mo 3 139 Tetragonal binary_hard
mp-454 NaGa4 5 139 Tetragonal binary_hard
mp-1827 SrGa4 5 139 Tetragonal binary_hard
mp-2129 Nd2Ge4 6 141 Tetragonal binary_hard
mp-30682 ZrGa 8 141 Tetragonal binary_hard
mp-2128 Sn8Pd2 10 68 Orthorhombic binary_hard
mp-1208467 Tb8Al2 10 227 Cubic binary_hard
mp-640079 Mn9Au3 12 123 Tetragonal binary_hard
mp-20132 InHg 2 166 Trigonal binary_medium
mp-2209 CeGa2 3 191 Hexagonal binary_medium
mp-30497 TbCd2 3 191 Hexagonal binary_medium
mp-30725 YHg2 3 191 Hexagonal binary_medium
mp-2731 TiGa3 4 139 Tetragonal binary_medium
mp-2510 ZrHg 4 123 Tetragonal binary_medium
mp-2740 ErCo5 6 191 Hexagonal binary_medium
mp-570875 Ga4Os2 6 70 Orthorhombic binary_medium
mp-861 Hf4Ni2 6 140 Tetragonal binary_medium
mp-1566 SmFe5 6 191 Hexagonal binary_medium
mp-2387 Th4Zn2 6 140 Tetragonal binary_medium
mp-1607 YbCu5 6 191 Hexagonal binary_medium
mp-8882 Ga2P2 4 186 Hexagonal polymorph_binary
mp-13181 LaF3 4 225 Cubic polymorph_binary
mp-568382 Mn2Bi2 4 194 Hexagonal polymorph_binary
mp-1004 Nb3Si 4 225 Cubic polymorph_binary
mp-2067 Th2Ga4 6 141 Tetragonal polymorph_binary
mp-2178 Yb2Ga4 6
AI搜集汇总
数据集介绍
main_image_url
构建方式
CSPBENCH数据集通过精心挑选的180个晶体结构构建而成,这些结构来自Materials Project数据库,涵盖了二元、三元和四元化合物,确保了多样性和代表性。数据集的构建过程中,考虑了晶体系统的对称性、原子比例、空间群以及单胞的形状和尺寸等因素,以确保测试集能够全面评估晶体结构预测算法的性能。
特点
CSPBENCH数据集的显著特点在于其广泛的多样性和复杂性,涵盖了从简单到复杂的多种晶体结构。数据集中包含了不同空间群和晶体系统的结构,确保了测试集的全面性。此外,数据集还特别关注了多态性结构,即同一化学成分可能存在多种晶体结构,这为评估算法的鲁棒性和准确性提供了挑战。
使用方法
CSPBENCH数据集可用于评估和比较多种晶体结构预测算法,包括基于模板的方法、机器学习方法和密度泛函理论(DFT)方法。使用者可以通过计算预测结构与真实结构之间的距离指标(如M3GNet能量距离、Chamfer距离等)来评估算法的性能。此外,数据集还提供了详细的评估指标和排名系统,帮助研究者更好地理解不同算法的优缺点,并为未来的算法改进提供参考。
背景与挑战
背景概述
晶体结构预测(Crystal Structure Prediction, CSP)在材料科学中具有重要意义,尤其是在发现具有广泛工业应用的新材料方面。然而,尽管该领域已有数十年的发展,但缺乏一套完善的基准数据集、定量性能评估指标以及对当前技术状态的系统评估。CSPBENCH数据集由南卡罗来纳大学、江苏师范大学、芝加哥大学等机构的研究人员共同开发,旨在填补这一空白。该数据集包含了180个经过精心挑选的晶体结构,涵盖二元、三元和四元化合物,旨在为CSP算法提供一个全面的基准测试平台。CSPBENCH不仅提供了13种最先进的CSP算法的性能评估,还引入了新的性能度量标准,以量化算法的准确性、效率和可靠性。
当前挑战
CSPBENCH数据集的构建和应用面临多重挑战。首先,晶体结构预测的核心问题在于如何准确预测复杂化合物的晶体结构,尤其是在缺乏实验数据的情况下。其次,构建过程中需要考虑晶体结构的多样性,包括不同的空间群、晶系以及原子数目,以确保数据集的广泛代表性。此外,CSP算法的性能评估需要克服晶体结构的多态性问题,即同一化学成分可能存在多种晶体结构。最后,CSP算法的性能不仅依赖于机器学习势函数的质量,还取决于全局优化算法的能力,这使得算法的性能评估更加复杂。
常用场景
经典使用场景
CSPBENCH数据集的经典使用场景在于评估和比较多种晶体结构预测(CSP)算法。该数据集包含了180个精心挑选的晶体结构,涵盖了二元、三元和四元化合物,具有不同的空间群和晶系。通过使用CSPBENCH,研究者可以对现有的CSP算法进行基准测试,评估其在不同复杂度结构上的预测性能,从而为材料发现提供有力的工具。
实际应用
CSPBENCH数据集在实际应用中具有广泛的前景,特别是在材料科学和工业领域。通过该数据集,研究者可以快速筛选和预测具有特定物理、化学或机械性能的新材料。例如,在电池材料、催化剂和半导体等领域,CSPBENCH可以帮助研究人员快速找到具有潜在应用价值的晶体结构,从而加速新材料的开发和商业化进程。
衍生相关工作
CSPBENCH数据集的发布催生了一系列相关的经典工作。例如,基于该数据集的研究揭示了模板驱动和机器学习势能驱动的CSP算法在不同复杂度结构上的表现差异。此外,CSPBENCH还推动了图神经网络(GNN)和深度学习在晶体结构预测中的应用,进一步提升了算法的预测精度和效率。这些衍生工作不仅丰富了CSP领域的研究内容,还为未来的材料发现提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

GetData.IO - finance - Google Search

GetData.IO -

getdata.io 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录