five

conductivity-cif

收藏
Hugging Face2025-08-07 更新2025-08-08 收录
下载链接:
https://huggingface.co/datasets/Taekgi/conductivity-cif
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含化学信息的数据集,具体包含指令(instruction)、化学信息文件(CIF)、公式(FORMULAR)、CIF文件描述(CIF_DESCRIPTION)和电导率(CONDUCTIVITY)等字段。数据集分为训练集和验证集,共有372个训练示例和92个验证示例。
创建时间:
2025-08-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: conductivity-cif
  • 存储位置: https://huggingface.co/datasets/Taekgi/conductivity-cif
  • 下载大小: 445418字节
  • 数据集大小: 1642566字节

数据集特征

数据集包含以下字段:

  • instruction: 字符串类型
  • CIF: 字符串类型
  • FORMULAR: 字符串类型
  • CIF_DESCRIPTION: 字符串类型
  • TOTAL_ATOM: 字符串类型
  • TOTAL_BOND: 字符串类型
  • AVG_COORDINATION: 字符串类型
  • STD_COORDINATION: 字符串类型
  • GRAPH_DIAMETER: 字符串类型
  • CONDUCTIVITY: 字符串类型

数据划分

  • 训练集(train):
    • 样本数量: 372
    • 数据大小: 1303583字节
  • 验证集(validation):
    • 样本数量: 92
    • 数据大小: 338983字节

配置文件

  • 默认配置(default):
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
在材料科学领域,conductivity-cif数据集通过系统整合晶体结构信息与电导率数据构建而成。该数据集收录了多种无机化合物的晶体学信息文件(CIF),并结合密度、孔隙体积分数及最小相对键长等结构参数,通过实验测量或计算模拟获取对应的电导率数值,最终形成包含372条训练样本和92条验证样本的结构化数据。
特点
该数据集的核心特征在于其多维度表征材料结构与性能的关联性。每条数据均包含晶体结构描述、化学式、密度参数及电导率等关键属性,其中CIF_DESCRIPTION字段提供了晶体结构的文本化描述,而CONDUCTIVITY字段则量化了材料的导电性能。这种结构-性能一体化的数据组织形式为材料设计研究提供了丰富的信息维度。
使用方法
研究人员可通过加载CIF文件重构晶体结构模型,并结合其他特征参数进行材料电导率的预测分析。该数据集适用于机器学习模型训练,特别是基于晶体结构的属性预测任务。验证集可用于评估模型泛化能力,为新材料导电性能的 computational screening 提供数据支撑。
背景与挑战
背景概述
在材料科学领域,晶体结构与其电学性能的关联性研究一直是核心议题。conductivity-cif数据集由材料信息学研究者于近年构建,旨在通过晶体信息文件(CIF)数据与电导率参数的对应关系,推动机器学习在材料性能预测中的应用。该数据集整合了晶体结构描述、密度、孔隙体积分数及最小相对键长等多维特征,为高通量筛选高性能导电材料提供了数据基础,显著加速了新型功能材料的发现进程。
当前挑战
该数据集致力于解决晶体材料电导率预测中的复杂构效关系建模挑战,其核心难点在于如何从多尺度结构特征中提取影响导电性的关键因子。构建过程中面临多重挑战:一是CIF数据的标准化处理与异构格式整合,需保证晶体结构信息的完整性与机器可读性;二是实验测得的电导率数据存在量纲差异与测量误差,需通过严格的数据清洗与归一化处理;三是需平衡特征维度与样本数量有限性之间的矛盾,以避免过拟合问题。
常用场景
经典使用场景
在材料科学领域,conductivity-cif数据集为研究晶体结构与离子电导率关系提供了重要支撑。该数据集通过整合CIF文件、化学式及结构描述等多维特征,典型应用于构建机器学习模型预测新型固态电解质的电导性能,为高通量筛选高性能离子导体材料奠定数据基础。
解决学术问题
该数据集有效解决了固态离子学中构效关系量化研究的瓶颈问题。通过提供标准化的晶体结构数据与对应电导率标签,支持研究者建立结构特征与导电性能的映射模型,显著加速了新型电解质材料的发现进程,推动了机器学习与材料科学的交叉融合。
衍生相关工作
该数据集催生了多项经典研究工作,包括基于图神经网络的晶体表征学习框架、多模态特征融合的电导率预测模型等。这些工作不仅拓展了计算材料学的研究范式,还衍生出如MatDeepLearn、CrystalGraph等开源工具链,推动了材料 informatics 领域的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作