TDCM25
收藏github2025-04-18 更新2025-04-25 收录
下载链接:
https://github.com/KurbanIntelligenceLab/TDCM25
下载链接
链接失效反馈官方服务:
资源简介:
TDCM25是一个全面的多模态基准数据集,旨在推动材料科学中的机器学习研究。它专注于通过结合结构、视觉和文本模态,模拟二氧化钛(TiO₂)在其三种晶相(锐钛矿、板钛矿和金红石)中的温度依赖性特性。
TDCM25 is a comprehensive multimodal benchmark dataset designed to advance machine learning research in materials science. It focuses on simulating the temperature-dependent properties of titanium dioxide (TiO₂) across its three crystalline phases: anatase, brookite, and rutile, by integrating structural, visual, and textual modalities.
创建时间:
2025-03-30
原始信息汇总
TDCM25数据集概述
基本信息
- 数据集名称: TDCM25: A Multi-modal Multi-task Benchmark for Temperature-dependent Crystalline Materials
- 作者: Can Polat, Hasan Kurban, Erchin Serpedin, Mustafa Kurban
- 发表会议: ICLR 2025, Singapore
- 论文链接: https://openreview.net/forum?id=bNB5SQTqKL
数据集详情
- 数据集大小: ~100,000条目
- 材料: 二氧化钛 (TiO₂)
- 晶体相: 锐钛矿 (Anatase)、板钛矿 (Brookite)、金红石 (Rutile)
- 温度范围: 0K至1000K (以50K为增量采样)
数据模态
- 3D原子坐标: XYZ文件格式
- 分子图像: 高分辨率RGB图像
- 文本元数据: 详细描述 (如Ti:O比例、温度、尺寸和旋转角度)
数据集结构
TDCM25/ ├── Phases/ │ ├──Temperatures/ │ ├── xyz/ # 3D原子坐标 (.xyz文件) │ ├── images/ # 分子图像 (如.png文件) │ └── text/ # 文本元数据 (.json或.txt文件) ├── all_labels.txt # 预测任务标签
关键特性
- 多模态数据: 整合3D几何、视觉表示和文本描述
- 旋转多样性: 每个配置通过四元数方法采样约526个不同方向
- 基准任务:
- 相分类: 识别TiO₂样品的晶体相
- 属性预测: 预测关键电子结构属性 (如基态能量、LUMO/HOMO能量、费米能)
- 可解释性: 生成人类可读的解释
数据集生成
- 方法: 使用密度泛函紧束缚 (DFTB) 模拟 (通过DFTB+与tiorg-0-1参数) 计算电子和结构属性
使用方式
- 下载数据集: 从TDCM25 Data下载
- 设置环境: 安装必要库 (如Python 3.8+、NumPy、PyTorch、Matplotlib)
- 运行基准任务:
- 相分类: 使用
benchmarks/phase_classification中的脚本 - 属性预测: 使用
benchmarks/property_prediction中的脚本 - 可解释性: 使用
benchmarks/explainability中的脚本
- 相分类: 使用
引用
bibtex @inproceedings{polat2025tdcm, title = {{TDCM}25: A Multi-Modal Multi-Task Benchmark for Temperature-Dependent Crystalline Materials}, author = {Can Polat and Hasan Kurban and Erchin Serpedin and Mustafa Kurban}, booktitle = {AI for Accelerated Materials Design - ICLR 2025}, year = {2025}, url = {https://openreview.net/forum?id=bNB5SQTqKL} }
联系方式
- 邮箱: can.polat@tamu.edu (邮件主题需包含[TDCM25 Request])
搜集汇总
数据集介绍

构建方式
TDCM25数据集通过密度泛函紧束缚(DFTB)模拟方法构建,采用DFTB+软件配合tiorg-0-1参数集,系统计算了二氧化钛在0K至1000K温度区间内(以50K为间隔)的电子结构与物性参数。数据集以三维原子坐标文件为基底,结合分子可视化技术生成高分辨率RGB图像,并辅以包含晶格参数、温度状态及旋转角度等元数据的文本描述,形成多模态数据矩阵。特别采用四元数采样法对每个构型进行526种空间取向采样,确保数据具有旋转不变性表征能力。
特点
该数据集创新性地整合了结构坐标、分子图像与文本描述三重模态,涵盖二氧化钛三种晶相(锐钛矿、板钛矿、金红石)在宽温域下的物性演变规律。其核心优势在于通过严格的空间取向采样策略构建旋转鲁棒性数据集,同时提供电子基态能、LUMO/HOMO能级等关键量子化学参数。多任务设计支持晶相分类、物性预测及可解释性分析,为材料多模态学习建立了标准化评估框架。
使用方法
使用者可通过官方存储库获取经系统组织的XYZ坐标文件、分子图像及JSON格式元数据。基准任务脚本采用模块化设计,分别提供晶相分类训练器(phase_classifier.py)、物性回归模型(property_prediction/)及基于文本的可解释性分析模块(explainability/)。典型工作流需配置Python3.8+环境并安装NumPy、PyTorch等依赖库,通过指定数据路径参数即可启动跨模态联合训练或单模态分析任务。
背景与挑战
背景概述
TDCM25数据集由Can Polat、Hasan Kurban、Erchin Serpedin和Mustafa Kurban等研究人员于2025年提出,旨在推动材料科学领域的机器学习研究。该数据集聚焦于二氧化钛(TiO₂)在三种晶相(锐钛矿、板钛矿和金红石)中的温度依赖性特性,通过结合结构、视觉和文本模态,为多模态学习提供了丰富的数据支持。数据集基于密度泛函紧束缚(DFTB)模拟生成,覆盖0K至1000K的温度范围,采样间隔为50K,包含约10万条数据条目。TDCM25的发布为材料科学中的相分类、性质预测和可解释性研究提供了重要基准,显著促进了多模态学习方法在材料设计中的应用。
当前挑战
TDCM25数据集在解决材料科学中的温度依赖性晶体材料特性建模问题时,面临多模态数据融合的挑战。不同模态(如3D原子坐标、分子图像和文本元数据)之间的特征对齐与信息互补需要复杂的跨模态学习策略。数据构建过程中,旋转多样性的引入虽增强了模型的鲁棒性,但也带来了数据增广与计算复杂度增加的难题。此外,温度变化对材料特性的非线性影响要求模型具备强大的泛化能力,以准确预测不同温度下的电子结构性质。这些挑战为开发新型多任务学习框架和可解释性方法提供了重要研究方向。
常用场景
经典使用场景
在材料科学领域,理解温度对晶体材料性能的影响至关重要。TDCM25数据集通过整合三维原子坐标、分子图像和文本元数据,为研究人员提供了一个多模态平台,用于探索二氧化钛在不同温度下的相变行为。该数据集最经典的使用场景是训练机器学习模型,以识别二氧化钛的三种晶相(锐钛矿、板钛矿和金红石),并预测其电子结构特性,如基态能量和费米能级。这种多模态方法不仅提高了模型的准确性,还为理解温度依赖性提供了更全面的视角。
衍生相关工作
TDCM25数据集已经催生了一系列经典研究工作。例如,基于该数据集的多模态融合方法在相分类任务中取得了显著进展,部分研究通过结合图神经网络和卷积神经网络,显著提高了分类精度。此外,一些工作利用数据集中的文本元数据,开发了生成式模型,用于自动生成材料特性的解释报告。这些衍生研究不仅拓展了数据集的应用范围,还为多模态学习在材料科学中的发展奠定了坚实基础。
数据集最近研究
最新研究方向
在材料科学领域,温度依赖性晶体材料的研究正逐渐成为热点。TDCM25数据集以其多模态、多任务的特点,为机器学习在材料科学中的应用提供了新的研究平台。该数据集整合了结构、视觉和文本三种模态的数据,特别关注二氧化钛(TiO₂)在不同温度下的晶体相变及其电子结构性质。前沿研究主要集中在利用深度学习模型进行多模态数据融合,以提高相分类和性质预测的准确性。此外,生成可解释的模型输出,以揭示材料的结构与热力学特性之间的关系,也是当前的研究重点。TDCM25的发布不仅推动了材料科学中AI方法的发展,还为跨学科研究提供了宝贵的数据资源。
以上内容由遇见数据集搜集并总结生成



