MR-TADF 分子数据集
收藏github2025-11-27 更新2025-11-28 收录
下载链接:
https://github.com/zouly-group/MR585_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含585个MR-TADF(多重共振热激活延迟荧光)分子数据,用于机器学习预测分子的光物理性质。数据集提供多种分子指纹和图特征,包含两个目标属性:deerta_EST(单三态能级差)和FWHM(半峰全宽)。
This dataset contains 585 molecular data samples of MR-TADF (multiple resonance thermally activated delayed fluorescence) molecules, which is intended for machine learning-based prediction of molecular photophysical properties. The dataset provides diverse molecular fingerprints and graph features, and includes two target properties: deerta_EST (singlet-triplet energy gap) and FWHM (full width at half maximum).
创建时间:
2025-11-27
原始信息汇总
MR-TADF 分子数据集概述
数据集基本信息
- 数据集名称:MR-TADF 分子数据集
- 数据规模:585个MR-TADF(多重共振热激活延迟荧光)分子
- 主要用途:机器学习预测分子的光物理性质
- 所属单位:吉林大学邹陆一教授课题组
- 联系方式:zouly@jlu.edu.cn
- 课题组主页:https://www.x-mol.com/groups/zouly
数据集内容特征
- 分子指纹特征:
- Morgan指纹(2048位)
- Morgan指纹(1024位)
- MACCS指纹
- 图结构特征:
- 原子特征列表
- 化学键特征列表
- 邻接矩阵
- 原子数量
- 化学键数量
- 目标属性:
- deerta_EST(单三态能级差)
- FWHM(半峰全宽)
技术实现
- 数据格式:Python pickle格式(MR585.pkl)
- 依赖库:pandas、numpy、pickle
- 核心类:SecureDataset
- 主要方法:
- get_morgan_fp() - 获取Morgan指纹
- get_maccs_fp() - 获取MACCS指纹
- get_properties() - 获取目标属性
- get_graph_data() - 获取图数据
- to_dataframe() - 转换为DataFrame
应用场景
- 分子性质预测
- 分子相似性分析
- 图神经网络建模
- 化学信息学研究
使用限制
- 仅供学术研究使用
- 未经授权不得用于商业用途
- 使用需联系邹陆一教授课题组获取引用信息
搜集汇总
数据集介绍

构建方式
在有机光电材料研究领域,MR-TADF分子数据集系统性地收录了585个具有多重共振热激活延迟荧光特性的分子实体。该数据集通过计算化学方法精确获取每个分子的结构特征,采用多种分子表征技术构建了完整的特征矩阵,包括不同维度的Morgan指纹、MACCS指纹以及原子级别的图结构数据。每个分子记录均经过严格的量子化学计算验证,确保单三态能级差和半峰全宽等光物理性质的准确性,为机器学习模型提供了可靠的结构-性质映射基础。
特点
该数据集在分子表征维度展现出显著优势,同时提供2048位与1024位两种精度的Morgan指纹表征,以及经典的MACCS结构指纹。其独特之处在于融合了传统分子描述符与图神经网络所需的拓扑特征,包含原子特征列表、化学键特征和邻接矩阵等多层次结构信息。数据集重点标注了deerta_EST和FWHM两个关键光物理参数,这些参数对开发新型发光材料具有重要指导意义,为多模态机器学习方法提供了丰富的特征空间。
使用方法
研究者可通过封装的SecureDataset类便捷地访问数据集各项内容,支持以DataFrame格式查看分子基本信息,或直接调用专用方法获取不同分辨率的分子指纹。对于图神经网络应用,可通过get_graph_data方法提取原子特征、键特征及邻接矩阵等图结构数据。该接口设计允许用户灵活选择特征表示形式,既可进行传统的分子相似性分析,也能满足深度学习模型对结构化数据的需求,为光物理性质预测研究提供完整的技术支持。
背景与挑战
背景概述
多重共振热激活延迟荧光(MR-TADF)分子数据集由吉林大学邹陆一教授课题组构建,专注于有机发光材料领域的研究。该数据集收录了585个MR-TADF分子的结构信息与光物理性质数据,旨在通过机器学习方法预测单三态能级差和半峰全宽等关键参数,为高效有机发光二极管的材料设计提供数据支持。其创建推动了计算化学与材料科学的交叉融合,显著提升了新型发光分子的筛选效率与设计精准度。
当前挑战
在MR-TADF分子数据集的构建过程中,面临多重共振分子结构复杂性与光物理性质精确表征的挑战。具体而言,分子结构的多样性和电子态相互作用的微妙差异使得单三态能级差的预测极为困难;同时,半峰全宽的准确测量受实验条件与分子环境敏感性的制约。数据集成时需整合多种分子指纹与图特征,确保数据一致性与可计算性,这对特征工程与模型泛化能力提出了较高要求。
常用场景
经典使用场景
在有机光电材料领域,MR-TADF分子数据集为机器学习模型提供了精准的训练基础,其经典应用场景聚焦于分子光物理性质的预测。通过整合多种分子指纹与图结构特征,研究人员能够构建高效的回归模型,准确估算单三态能级差与半峰全宽等关键参数。这类预测不仅深化了对分子激发态行为的理解,更为新型发光材料的设计提供了理论依据,显著缩短了实验筛选周期。
实际应用
在实际应用中,MR-TADF数据集被广泛集成于材料信息学平台,辅助研发人员快速筛选具有理想延迟荧光特性的候选分子。例如,在OLED器件优化过程中,利用该数据集训练的预测模型可提前评估分子的发光效率与色纯度,大幅降低实验试错成本。此类应用不仅加速了新型显示与照明技术的迭代,也为绿色能源材料的创新提供了关键支撑。
衍生相关工作
基于该数据集衍生的经典研究包括结合图神经网络与多任务学习的分子性质预测框架,这些工作显著提升了光电性质预测的精度与泛化能力。此外,部分研究进一步拓展了数据集的边界,开发出融合量子化学描述符的混合模型,深化了对多重共振机制的理论阐释。这些衍生成果共同构筑了智能化学设计的新范式,持续推动着计算材料学的前沿发展。
以上内容由遇见数据集搜集并总结生成



