Tsinghua Oxidation States in Solids (TOSS)
收藏arXiv2025-03-25 更新2025-03-27 收录
下载链接:
https://www.toss.science
下载链接
链接失效反馈官方服务:
资源简介:
TOSS数据集由清华大学化学系创建,是一个包含超过一百万个晶体结构的氧化态数据集。该数据集通过贝叶斯最大后验概率方法,从大量晶体结构中显式计算固体中的氧化态,为化学直觉的理解提供基础,并可用于训练机器学习模型,加速复杂化学系统的计算,解决化学中的复杂问题。
The TOSS dataset, developed by the Department of Chemistry at Tsinghua University, is an oxidation state dataset encompassing over one million crystal structures. It explicitly calculates oxidation states in solid materials from a large collection of crystal structures via the Bayesian maximum a posteriori (MAP) method. This dataset serves as a fundamental resource for comprehending chemical intuition, and can be utilized to train machine learning models to expedite calculations of complex chemical systems and address intricate problems in the field of chemistry.
提供机构:
清华大学化学系
创建时间:
2025-03-25
搜集汇总
数据集介绍

构建方式
Tsinghua Oxidation States in Solids (TOSS) 数据集的构建基于一种创新的数据驱动范式,通过贝叶斯最大后验概率 (MAP) 方法从大规模晶体结构数据中计算氧化态 (OS)。该方法包含两个核心循环结构:首先通过反复‘学习’数据集中的所有原子结构,抽象出用于分析局部配位环境的距离阈值;随后通过‘实践’过程,基于MAP和整个数据集中的距离分布,为每个结构最小化损失函数以确定氧化态。这一过程不仅自动化程度高,而且完全依赖于数据集本身,无需预设参数,确保了方法的普适性和高效性。
特点
TOSS 数据集的特点在于其高度自动化和数据驱动的特性。它不仅能够为超过100万种晶体结构成功分配氧化态,成功率达97.14%,远超传统方法的33.57%,还生成了一个包含元素间距离分布和配位半径的化学直觉理解库。这些距离分布直观展示了不同元素对的配位键长分布,为化学配位场景提供了坚实基础。此外,TOSS 的结果与化学直觉高度一致,为材料发现和性质预测提供了可靠的化学信息描述符。
使用方法
TOSS 数据集的使用方法灵活多样。研究人员可以直接访问 https://www.toss.science 获取氧化态结果和化学直觉理解库,用于材料的高通量发现和性质预测。此外,TOSS 的代码和机器学习模型已在 https://github.com/yueyin19960520/TOSS 开源,支持用户自行计算新晶体结构的氧化态。数据集还可作为训练机器学习模型的基础,特别是图卷积网络 (GCN) 模型,以进一步优化氧化态预测的准确性和效率。
背景与挑战
背景概述
Tsinghua Oxidation States in Solids (TOSS) 数据集由清华大学化学系肖海课题组于2025年3月发布,旨在解决固体材料中氧化态(Oxidation State, OS)的自动化计算难题。氧化态作为化学领域的核心概念,虽缺乏严格的量子力学定义,却在材料发现与性质预测中具有重要指导价值。该数据集基于贝叶斯最大后验概率框架,通过分析超过100万种晶体结构的配位环境距离分布,建立了数据驱动的氧化态计算范式。TOSS的创新性体现在其双循环算法架构:第一循环从晶体结构数据中抽象出元素对的配位距离阈值,第二循环通过最小化损失函数确定氧化态。这一工作不仅为计算化学提供了新范式,其衍生的配位半径库更为材料基因组研究提供了化学直觉基础。
当前挑战
TOSS数据集面临的核心挑战体现在两个维度:科学问题层面,氧化态作为化学直觉的体现,其量子力学定义的缺失导致传统计算方法依赖经验参数(如键价模型中的价键参数),难以适应新型材料的高通量筛选需求;技术实现层面,构建过程中需解决配位环境定义的敏感性难题——例如Sb(III)-Cl与Sb(V)-Cl键长细微差异的区分,这要求算法在计算效率与精度间取得平衡。此外,数据集覆盖度不足导致某些元素对(如镧系/锕系化合物)的氧化态预测偏离化学直觉,凸显了数据规模与质量对模型泛化能力的关键影响。
常用场景
经典使用场景
在固态化学与材料科学领域,TOSS数据集通过其基于贝叶斯最大后验概率的数据驱动范式,为晶体结构中氧化态的自动计算提供了标准化解决方案。该数据集特别适用于高通量材料计算场景,例如在Materials Project和OQMD等大型晶体结构数据库中,研究者能快速获取超过100万种晶体材料的氧化态信息,其97.14%的成功率显著优于传统键价理论方法。
解决学术问题
TOSS数据集有效解决了氧化态计算中量子力学定义缺失与经验参数依赖的学术难题。通过抽象晶体结构中的距离分布阈值,并基于全数据集构建贝叶斯损失函数,该方法突破了键价模型对预设参数的局限,实现了对新型化合物(如非常规氧化态材料)的普适性预测。其衍生的配位半径、键长分布等化学描述符,为理解配位环境与氧化态的关联提供了定量基础。
衍生相关工作
基于TOSS数据集衍生的经典工作包括:1) 开发异质图神经网络模型,实现配位环境与氧化态的联合预测,准确率达97.77%;2) 构建简化的图卷积网络(GCN)替代方案,在保持98%预测精度的同时提升计算速度;3) 生成包含235,632个O-Al键长分布的化学知识库,为后续研究提供配位化学的统计基础。这些成果推动了数据驱动范式在化学直觉计算中的应用。
以上内容由遇见数据集搜集并总结生成



