AIRI-Institute/LiTraj
收藏Hugging Face2025-05-21 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/AIRI-Institute/LiTraj
下载链接
链接失效反馈官方服务:
资源简介:
LiTraj数据集是一个用于评估机器学习模型在预测锂离子迁移方面性能的数据集。它包含13,000个渗透势垒、122,000个迁移势垒和1,700条迁移轨迹,这些数据是通过DFT和BVS方法计算得出的。数据集被分为训练、验证和测试集,并提供Python工具用于处理这些数据集。
The LiTraj dataset is for benchmarking machine learning models in predicting lithium ion migration. It includes 13,000 percolation barriers, 122,000 migration barriers, and 1,700 migration trajectories, calculated using DFT and BVSE methods. The dataset is split into training, validation, and test sets, and Python tools are provided for data handling.
提供机构:
AIRI-Institute
搜集汇总
数据集介绍

构建方式
在锂离子电池材料研究领域,准确预测离子迁移行为对开发高性能电解质至关重要。LiTraj数据集的构建依托于材料项目数据库中的晶体结构,采用密度泛函理论与键价位点能量方法进行系统计算。其核心子集如nebDFT2k通过爬坡弹性带方法优化锂离子空位迁移轨迹,并利用BVSE-NEB进行预处理;MPLiTrj则记录了DFT-NEB优化过程中产生的能量、力与应力张量配置;BVEL13k与nebBVSE122k分别通过BVEL方法与BVSE-NEB方法计算渗流屏障与迁移能垒,最终以扩展XYZ格式存储,便于原子模拟环境库解析。
特点
该数据集在固态离子学中呈现出多维度、多理论层次的鲜明特色。其囊括逾13,000个渗流屏障、122,000个迁移能垒及1,700条迁移轨迹,覆盖从微观迁移路径到宏观输运性质的全尺度信息。数据子集分别基于DFT与BVSE理论构建,形成从高精度量子化学计算到高效经验方法的互补体系。数据集严格划分训练、验证与测试集,并以包含‘X’标记质心的超胞结构适配图神经网络输入,为机器学习模型提供了兼具丰富物理内涵与规范格式的结构化基准。
使用方法
为便利研究者在离子迁移预测任务中应用该数据集,LiTraj提供了完整的Python工具链。用户可通过‘pip install litraj’安装专用库,使用‘download_dataset’函数下载特定子集并自动解压。数据加载通过‘load_data’函数实现,返回原子结构列表及索引数据框,支持直接读取能量、力、应力及迁移屏障等关键属性。配套的Jupyter Notebook示例展示了从通用机器学习势函数基准测试到图神经网络训练的全流程,使研究者能够快速开展模型评估与迁移学习实验。
背景与挑战
背景概述
在电化学储能材料领域,锂离子迁移性能是决定电池能量密度与功率密度的核心因素。传统基于密度泛函理论的计算方法虽精度较高,但计算成本巨大,难以满足高通量材料筛选的需求。为应对这一挑战,AIRI研究所于2025年发布了LiTraj数据集,该数据集整合了逾13万条锂离子迁移路径的能垒数据与数千条原子轨迹,旨在为机器学习模型提供高质量基准数据,以加速固态电解质等先进材料的发现与优化进程。
当前挑战
LiTraj数据集致力于解决锂离子迁移能垒的精准预测问题,其核心挑战在于迁移路径的复杂性与能垒计算的多样性。构建过程中,研究人员需克服多尺度模拟的数据整合难题,包括从Materials Project数据库筛选晶体结构、运用爬坡弹性带方法优化迁移轨迹,并协调密度泛函理论与键价位能方法的数据一致性。此外,数据集的标准化格式设计与大规模轨迹信息的有效存储亦是关键挑战。
常用场景
经典使用场景
在锂离子电池材料研发领域,LiTraj数据集为评估机器学习模型预测锂离子迁移能力提供了基准平台。其核心应用场景聚焦于训练和验证图神经网络及通用机器学习原子间势能模型,通过迁移势垒、渗透势垒以及能量-力-应力张量等多维度数据,精准模拟离子在晶体结构中的扩散行为。该数据集尤其适用于结构到性质的预测任务,例如利用包含质心的超胞结构作为输入,直接预测锂离子迁移能垒,从而加速高性能固态电解质材料的计算筛选过程。
解决学术问题
LiTraj数据集有效应对了计算材料学中锂离子迁移性质预测的高计算成本挑战。传统密度泛函理论方法虽精确但耗时,而该数据集通过提供大规模、高质量的DFT与BVSE计算数据,为开发高效机器学习模型奠定了数据基础。它解决了迁移势垒与渗透势垒的快速准确预测问题,使得研究人员能够系统评估不同模型在复杂晶体环境中的泛化能力与计算效率,推动了数据驱动的离子输运机理研究。
衍生相关工作
围绕LiTraj数据集,已衍生出一系列重要的算法与模型研究。例如,基于其nebDFT2k子集,研究人员对MACE_MP等通用机器学习原子间势能模型进行了迁移势垒预测的基准测试。同时,该数据集支撑了针对锂离子迁移的专用图神经网络模型的训练与验证工作,如利用BVEL13k数据训练Allegro模型预测多维渗透势垒。这些工作不仅验证了数据集的实用性,也推动了机器学习在离子迁移预测这一细分方向的模型创新与性能提升。
以上内容由遇见数据集搜集并总结生成



