five

HTSC-2025|超导材料数据集|人工智能数据集

收藏
arXiv2025-06-04 更新2025-06-06 收录
超导材料
人工智能
下载链接:
https://github.com/xqh19970407/HTSC-2025
下载链接
链接失效反馈
资源简介:
HTSC-2025数据集是一个常压高温超导体基准数据集,包含了从2023年到2025年理论物理学家基于BCS超导理论预测的超导材料,包括著名的X2YH6系统、钙钛矿MXH3系统、M3XH8系统、从LaH10结构演变而来的笼状BCN掺杂金属原子系统以及从MgB2演变而来的二维蜂窝结构系统。该数据集旨在为AI驱动的超导转变温度预测提供标准化的基准,并已经开源供研究使用。
提供机构:
中国人民大学
创建时间:
2025-06-04
原始信息汇总

HTSC-2025数据集概述

数据集简介

HTSC-2025是一个开源的高温超导体基准数据集,包含2023-2025年间预测的常压高温超导体数据,旨在标准化AI评估并加速基于物理信息的超导体发现。

数据内容

晶体材料统计

材料类别 平均Tc(K) 最高Tc化学式 空间群 最高Tc(K) 数量
X2YH6 55.4 Mg2IrH6 Fm-3m 160 19
LaH10 53.0 KPbB6C6 Pm-3 88 12
X2YMH6 35.5 Na2LiAgH6 Fm-3m 86 23
MXH3 35.3 SrAuH3 Pm-3m 132 15
M3XH8 20.4 Mg3OsH8 Pm-3m 73 18
Others 7.9 MgB2 P63/mmc 39.0 53
总计 27.3 Mg2IrH6 Fm-3m 160 140

数据集访问

  • Hugging Face论文链接:https://huggingface.co/papers/2506.03837
  • Hugging Face数据集中心:https://huggingface.co/datasets/xiao-qi/HTSC-2025

引用信息

bibtex @misc{han2025htsc2025benchmarkdatasetambientpressure, title={HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction}, author={Xiao-Qi Han and Ze-Feng Gao and Xin-De Wang and Zhenfeng Ouyang and Peng-Jie Guo and Zhong-Yi Lu}, year={2025}, eprint={2506.03837}, archivePrefix={arXiv}, primaryClass={cond-mat.supr-con}, url={https://arxiv.org/abs/2506.03837}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在高温超导材料研究领域,HTSC-2025数据集的构建采用了系统化的方法。研究团队首先对2023年至2025年间理论预测的高温超导材料进行了全面的文献综述,特别关注了基于BCS超导理论的候选材料。通过专家手动构建、自动化脚本替换以及与原作者直接沟通等多种方式,收集了晶体结构信息(CIF文件)和对应的理论预测超导转变温度。随后,这些材料被系统地分类为X2YH6型、钙钛矿MXH3型、M3XH8型、LaH10型笼状结构、MgB2类二维蜂窝结构等特定晶体系统,从而为后续的AI性能评估建立了结构化框架。
特点
HTSC-2025数据集以其独特的特点在超导材料研究中脱颖而出。该数据集包含140个样本,平均超导转变温度(Tc)为27.3 K,其中超过一半的晶体Tc超过20 K,突显了其对高温超导材料的聚焦。数据集中的元素分布显示,氢是出现频率最高的元素,存在于79种化合物中,强调了氢化物在实现高温超导方面的潜力。此外,数据集涵盖了多种晶体系统,包括X2YH6型、钙钛矿MXH3型等,为研究不同结构对超导性能的影响提供了丰富样本。
使用方法
HTSC-2025数据集的使用方法设计科学且高效。在评估AI模型性能时,首先需确保训练数据集中排除了HTSC-2025中的材料以避免数据泄露。模型将晶体数据转换为图表示或其他结构化格式输入,进而预测材料的超导Tc。为量化预测性能,计算模型预测值与DFT计算结果之间的平均绝对误差(MAE)。测试集按晶体系统划分,既可计算系统特定的MAE,也可计算总体MAE。此外,针对高温超导体的更高应用价值,还引入了不同临界温度区间的预测成功率作为额外评估指标,特别是在麦克米兰极限和液氮温区等关键技术区间。
背景与挑战
背景概述
高温超导材料的研究在凝聚态物理领域具有重要地位,自1911年汞的超导现象被发现以来,科学家们一直在探索更高临界温度(Tc)的超导材料。HTSC-2025数据集由中国人民大学物理系的研究团队于2025年创建,旨在为人工智能驱动的高温超导材料发现提供标准化基准。该数据集聚焦于环境压力下的高温超导材料,涵盖了2023年至2025年间基于BCS超导理论预测的多种材料体系,如X2YH6系统、钙钛矿型MXH3结构等。HTSC-2025的建立填补了该领域缺乏统一评估标准的空白,为不同AI算法的公平比较提供了基础,推动了超导材料发现方法的进一步发展。
当前挑战
HTSC-2025数据集面临的挑战主要体现在两个方面:首先,在解决领域问题方面,高温超导材料的Tc预测存在显著复杂性,由于电子-声子耦合、能带结构等多因素影响,AI模型需在高精度与物理可解释性之间取得平衡;其次,在构建过程中,数据集需确保材料的时效性与代表性,同时兼顾环境压力下的实用价值,这要求对大量理论预测材料进行严格筛选与验证。此外,不同晶体结构的超导机制差异为数据标准化带来挑战,需设计分层次的评估指标以全面反映模型性能。
常用场景
经典使用场景
HTSC-2025数据集作为高温超导材料领域的基准数据集,其经典使用场景主要集中于人工智能驱动的临界温度预测研究。在凝聚态物理与材料科学交叉领域,该数据集通过整合2023至2025年间理论预测的常压高温超导体(如X2YH6体系、钙钛矿型MXH3结构等),为机器学习模型提供了标准化的训练与测试平台。研究者常利用其结构化晶体信息(CIF文件)和对应Tc值,开发基于图神经网络、三维视觉Transformer等架构的预测算法,并通过与密度泛函理论计算结果对比验证模型性能。
解决学术问题
该数据集有效解决了超导材料研究中两大核心学术问题:其一是消除了不同AI算法间因数据来源差异导致的评估标准不统一问题,通过提供经过BCS理论验证的常压高Tc材料数据,使得ALIGNN、BETE-NET等模型的预测误差(MAE<2K)具有可比性;其二是突破了传统试错法在材料发现中的效率瓶颈,为逆向设计提供了物理启发的模板(如空穴掺杂、轻元素共价键调控等策略),显著加速了新型超导材料的理论筛选进程。
衍生相关工作
该数据集催生了多个标志性衍生研究:在算法层面,SuperconGNN等基于球谐函数的等变图神经网络通过HTSC-2025验证了多间隙超导机制预测能力;在材料发现方面,受X2YH6体系启发开发的氟化物型M3XH8化合物(如Mg3OsH8,Tc=73K)拓展了强电子-声子耦合材料的设计空间。数据集构建方法论更被推广至高压超导体筛选领域,如Jiang等人开发的300GPa下Tc预测模型便借鉴了其分层评估框架。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

K-Lane

K-Lane是世界上首个也是最大的公共城市道路和高速公路激光雷达车道数据集,包含超过1.5万个帧,涵盖了多达六个车道的标注,适应于多种道路和交通条件,如多级遮挡道路、白天和夜晚道路、合并(收敛和发散)以及弯曲车道。

arXiv 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

CWRU Bearing Dataset

用于训练CNN和LSTM的轴承数据集,用于电机故障检测。

github 收录