【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
OBELiX
收藏arXiv2025-02-20 更新2025-02-25 收录
下载链接:
https://github.com/NRC-Mila/OBELiX
下载链接
链接失效反馈官方服务:
资源简介:
OBELiX是一个由领域专家策划的数据库,包含约600种合成的固态电解质材料及其在室温下实验测量的离子电导率。每种材料都通过其测量组成、空间群和晶格参数来描述。对于约320个结构,提供了完整的晶体描述(晶体信息文件,CIF),其中包含了原子的位置信息。该数据库旨在加速固态电解质材料的机器学习辅助发现过程。
OBELiX is a curated database developed by domain experts, containing approximately 600 synthetic solid-state electrolyte materials and their experimentally measured ionic conductivities at room temperature. Each material is characterized by its measured composition, space group and lattice parameters. For roughly 320 of these structures, complete crystal descriptions (Crystal Information Files, CIF) including atomic position information are provided. This database aims to accelerate the machine learning-assisted discovery process of solid-state electrolyte materials.
提供机构:
加拿大蒙特利尔大学Mila
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
OBELiX数据集的构建过程始于对利物浦离子数据集和Laskowski数据集的选择,从中选取了能够在室温下测量出离子电导率的固体电解质材料。通过对原始文献中的表格或图表进行手动检索,补充了缺失的离子电导率、空间群和晶格参数等信息。同时,从ICSD数据库中检索与材料相匹配的晶体信息文件(CIF),并通过添加随机噪声的方式公开了部分CIF文件,以确保数据的开放性和可用性。为了确保数据的一致性和准确性,对数据集进行了清洗,过滤掉了重复的条目,并确保了测试集和训练集之间的数据独立性。
特点
OBELiX数据集的特点在于其全面性,包含了599种合成固体电解质材料及其室温离子电导率的实验测量数据。此外,数据集还提供了材料的化学成分、空间群和晶格参数等描述信息。对于约320种结构,还提供了完整的晶体描述文件(CIF)。OBELiX数据集的另一个特点是它提供了避免数据泄露的训练和测试数据分割,这有助于公平地评估机器学习模型在预测离子电导率方面的性能。
使用方法
OBELiX数据集的使用方法包括数据准备、模型训练和模型评估三个步骤。首先,用户可以从数据集中选择所需的数据进行模型训练,包括化学成分、空间群和晶格参数等。然后,用户可以使用随机森林(RF)或多层感知器(MLP)等机器学习模型对数据进行训练。最后,用户可以使用测试集对训练好的模型进行评估,以验证模型在预测室温离子电导率方面的性能。此外,用户还可以使用CIF文件进行更精细的模型训练,以提高模型的预测精度。
背景与挑战
背景概述
OBELiX数据集由Felix Therrien等研究人员于2025年创建,旨在通过机器学习加速固态电解质材料的发现。该数据集包含了约600种合成的固态电解质材料和它们在室温下测量的离子电导率。这些材料通过其测量的组成、空间群和晶格参数进行描述。OBELiX数据集为固态电解质材料的研究提供了宝贵的资源,对于推动固态电池技术的发展具有重要意义。
当前挑战
OBELiX数据集面临的挑战主要包括:1) 离子电导率预测的准确性,需要克服现有模型可能过拟合的问题;2) 数据集的规模相对较小,需要开发针对小数据集的特定模型;3) 数据集中部分材料的结构信息不完整,特别是原子位置的缺失,影响模型的预测精度;4) 离子电导率与材料结构之间的关系复杂,需要更深入的研究和理解。
常用场景
经典使用场景
OBELiX 数据集主要用于加速固态电解质材料的发现过程。它包含约600种合成的固态电解质材料及其在室温下测量的离子电导率。每种材料都通过其测量的成分、空间群和晶格参数来描述。对于约320种结构,还提供了完整的晶体描述,以晶体学信息文件(CIF)的形式。OBELiX 数据集的目的是促进机器学习在固态电解质材料发现中的应用,并作为一个参考点,用于训练和测试离子电导率模型。
解决学术问题
OBELiX 数据集解决了固态电解质材料发现过程中实验和计算方法耗时且资源密集的问题。传统的理论计算和实验验证方法在识别高离子导电性材料方面非常耗时。OBELiX 数据集提供了丰富的实验数据,可以用于训练机器学习模型,从而加速新型固态电解质材料的发现。此外,OBELiX 数据集还解决了现有数据集缺乏精确结构信息的问题,这限制了实验值与理论预测的比较,以及机器学习模型在预测离子电导率方面的准确性。
衍生相关工作
OBELiX 数据集的发布和评估引发了一系列相关的研究工作。例如,研究人员已经使用 OBELiX 数据集来训练和评估不同的机器学习模型,以预测离子电导率。此外,OBELiX 数据集还为开发新的机器学习方法提供了参考,这些方法可以更好地处理固态电解质材料中的部分占位问题。OBELiX 数据集的发布还促进了固态电池领域的学术交流和合作,推动了固态电池技术的发展。
以上内容由遇见数据集搜集并总结生成



