CSPBENCH|晶体结构预测数据集|算法评估数据集
收藏CSPBenchmark: 晶体结构预测算法基准
主要晶体结构预测软件概述
算法 | 年份 | 类别 | 开源 | URL 链接 | 编程语言 |
---|---|---|---|---|---|
USPEX | 2006 | De novo (DFT) | 否 | link | Matlab |
CALYPSO* | 2010 | De novo (DFT) | 否 | link | Python |
ParetoCSP* | 2024 | MOGA+MLP | 是 | link | Python |
GNOA* | 2022 | BO/PSO + MLP | 是 | link | Python |
TCSP* | 2022 | Template | 是 | link | Python |
CSPML* | 2022 | Template | 是 | link | Python |
GATor | 2018 | GA + FHI potential | 是 | link | Python |
AiRss | 2011 | Random + DFT or pair Potential | 是 | link | Fortran |
GOFEE | 2020 | ActiveLearning + Gaussian Pot. | 是 | link | Python |
AGOX* | 2022 | Search + Gaussian Potential | 是 | link | Python |
GASP | 2007 | GA + DFT | 是 | link | Java |
M3GNet | 2022 | Relax with MLP | 是 | link | Python |
ASLA | 2020 | NN + RL | 否 | link | N/A |
CrySPY | 2023 | GA/BO + DFT | 是 | link | Python |
XtalOpt | 2011 | GA + DFT | 是 | link | C++ |
AlphaCrystal* | 2023 | GA + DL | 是 | link | Python |
晶体结构预测算法在所有测试结构上的性能比较
使用来自 CSPBenchMetrics 的晶体结构预测性能指标。
排名分数计算代码显示在代码文件夹 Compute-Ranking-Scores。
CSPML、ParetoCSP、AGOX-pt 和 CALYPSO 算法的指标距离
算法 | CSPML | ParetoCSP | AGOX-pt | CALYPSO | ||||
---|---|---|---|---|---|---|---|---|
测试样本 | ED | HD | ED | HD | ED | HD | ED | HD |
Ca3SnO | 0.01 | 0.02 | 0.01 | 0.02 | 5.50 | 9.34 | 0.01 | 2.41 |
CoNiSn | 34.15 | 4.33 | 0.01 | 0.06 | 7.26 | 7.30 | 34.55 | 6.68 |
CoTe | 0.18 | 1.52 | 0.20 | 2.33 | 6.88 | 9.90 | 0.11 | 2.38 |
Cr3Ga | 31.78 | 2.79 | 0.12 | 1.62 | 11.95 | 6.62 | 16.13 | 4.07 |
Hf2Ni | 0.05 | 5.58 | 52.93 | 3.40 | 10.94 | 8.03 | 0.09 | 4.18 |
HfCo2Sn | 0.01 | 0.04 | 0.15 | 5.29 | 5.18 | 8.88 | 29.31 | 3.46 |
HfMn2 | 0.03 | 0.15 | 59.73 | 5.53 | 19.92 | 7.21 | 116.21 | 5.04 |
InHg | 22.54 | 8.61 | 0.14 | 6.05 | 0.38 | 7.13 | 0.02 | 4.51 |
Li2CuSn | 0.44 | 0.12 | 0.05 | 5.51 | 2.82 | 8.76 | 13.14 | 3.54 |
LiMg2Ga | 0.00 | 0.03 | 0.13 | 4.48 | 8.70 | 8.87 | 8.60 | 5.33 |
MgCu4Sn | 0.04 | 0.09 | 0.51 | 2.74 | 5.65 | 8.83 | 67.92 | 5.34 |
MgInCu4 | 0.06 | 3.07 | 0.47 | 3.69 | 5.92 | 9.65 | 20.48 | 7.26 |
NaGa4 | 0.05 | 5.22 | 0.05 | 2.10 | 3.52 | 7.42 | 0.10 | 2.24 |
ScCu | 0.00 | 0.01 | 0.00 | 0.01 | 5.39 | 11.77 | 0.01 | 1.70 |
SrGa4 | 0.02 | 5.43 | 0.05 | 2.27 | 4.10 | 9.97 | 15.76 | 6.41 |
SrGaCu2 | 0.78 | 4.79 | 0.30 | 9.45 | 3.27 | 8.55 | 13.91 | 10.39 |
Ti2Cd | 16.18 | 2.04 | 0.03 | 1.46 | 7.49 | 9.34 | 16.66 | 3.57 |
TiGa3 | 0.02 | 2.44 | 0.01 | 1.50 | 1.48 | 9.60 | 0.09 | 2.67 |
YAl3 | 19.39 | 11.76 | 1.41 | 12.24 | 10.72 | 9.55 | 38.98 | 13.77 |
YHg2 | 8.41 | 5.83 | 0.02 | 1.74 | 3.07 | 8.98 | 0.00 | 1.75 |
ZnCdPt2 | 0.29 | 2.99 | 0.04 | 2.04 | 4.85 | 8.63 | 0.03 | 0.13 |
ZnCO3 | 0.08 | 1.31 | 8.88 | 4.71 | 6.79 | 8.53 | 0.54 | 4.06 |
ZrHg | 9.16 | 2.69 | 0.06 | 2.15 | 3.09 | 9.45 | 9.21 | 2.30 |
# of Best | 12 | 11 | 10 | 8 | 1 | 2 | 5 | 3 |
所有算法的参数和配置
参数和配置的详细信息显示在图像 parameters1.png。
本工作中使用的180个基准晶体的详细信息
测试数据可在 CSPbenchmark_test_data.csv 下载。
材料ID | 原始公式 | 站点数量 | 空间群 | 晶系 | 类别 |
---|---|---|---|---|---|
mp-2334 | DyCu | 2 | 221 | Cubic | binary_easy |
mp-2226 | DyPd | 2 | 221 | Cubic | binary_easy |
mp-1121 | GaCo | 2 | 221 | Cubic | binary_easy |
mp-2735 | PaO | 2 | 225 | Cubic | binary_easy |
mp-1169 | ScCu | 2 | 221 | Cubic | binary_easy |
mp-30746 | YIr | 2 | 221 | Cubic | binary_easy |
mp-24658 | SmH2 | 3 | 225 | Cubic | binary_easy |
mp-20225 | CePb3 | 4 | 221 | Cubic | binary_easy |
mp-788 | Co2Te2 | 4 | 194 | Hexagonal | binary_easy |
mp-20176 | DyPb3 | 4 | 221 | Cubic | binary_easy |
mp-1231 | Cr6Ga2 | 8 | 223 | Cubic | binary_easy |
mp-12570 | ThB12 | 13 | 225 | Cubic | binary_easy |
mp-13452 | BePd2 | 3 | 139 | Tetragonal | binary_hard |
mp-11359 | Ga2Cu | 3 | 123 | Tetragonal | binary_hard |
mp-1995 | PrC2 | 3 | 139 | Tetragonal | binary_hard |
mp-30501 | Ti2Cd | 3 | 139 | Tetragonal | binary_hard |
mp-30789 | U2Mo | 3 | 139 | Tetragonal | binary_hard |
mp-454 | NaGa4 | 5 | 139 | Tetragonal | binary_hard |
mp-1827 | SrGa4 | 5 | 139 | Tetragonal | binary_hard |
mp-2129 | Nd2Ge4 | 6 | 141 | Tetragonal | binary_hard |
mp-30682 | ZrGa | 8 | 141 | Tetragonal | binary_hard |
mp-2128 | Sn8Pd2 | 10 | 68 | Orthorhombic | binary_hard |
mp-1208467 | Tb8Al2 | 10 | 227 | Cubic | binary_hard |
mp-640079 | Mn9Au3 | 12 | 123 | Tetragonal | binary_hard |
mp-20132 | InHg | 2 | 166 | Trigonal | binary_medium |
mp-2209 | CeGa2 | 3 | 191 | Hexagonal | binary_medium |
mp-30497 | TbCd2 | 3 | 191 | Hexagonal | binary_medium |
mp-30725 | YHg2 | 3 | 191 | Hexagonal | binary_medium |
mp-2731 | TiGa3 | 4 | 139 | Tetragonal | binary_medium |
mp-2510 | ZrHg | 4 | 123 | Tetragonal | binary_medium |
mp-2740 | ErCo5 | 6 | 191 | Hexagonal | binary_medium |
mp-570875 | Ga4Os2 | 6 | 70 | Orthorhombic | binary_medium |
mp-861 | Hf4Ni2 | 6 | 140 | Tetragonal | binary_medium |
mp-1566 | SmFe5 | 6 | 191 | Hexagonal | binary_medium |
mp-2387 | Th4Zn2 | 6 | 140 | Tetragonal | binary_medium |
mp-1607 | YbCu5 | 6 | 191 | Hexagonal | binary_medium |
mp-8882 | Ga2P2 | 4 | 186 | Hexagonal | polymorph_binary |
mp-13181 | LaF3 | 4 | 225 | Cubic | polymorph_binary |
mp-568382 | Mn2Bi2 | 4 | 194 | Hexagonal | polymorph_binary |
mp-1004 | Nb3Si | 4 | 225 | Cubic | polymorph_binary |
mp-2067 | Th2Ga4 | 6 | 141 | Tetragonal | polymorph_binary |
mp-2178 | Yb2Ga4 | 6 |

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
GetData.IO - finance - Google Search
GetData.IO -
getdata.io 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录