The Photoswitch Dataset
收藏github2024-05-16 更新2024-05-31 收录
下载链接:
https://github.com/Ryan-Rhys/The-Photoswitch-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含405个光开关分子的基准属性预测结果,用于机器学习属性预测。
This dataset comprises benchmark property prediction results for 405 photoswitchable molecules, intended for machine learning-based property prediction.
创建时间:
2020-01-07
原始信息汇总
数据集概述
数据集名称
- The Photoswitch Dataset
数据集内容
- 包含405个photoswitch分子的数据。
- 分子结构使用简化分子线性输入规范(SMILES)表示。
- 收集的分子属性包括:
- 热异构化速率(单位:s^-1)
- 光稳态(单位:%的特定异构体)
- pi-pi*/n-pi*波长(单位:纳米)
- DFT计算的pi-pi*/n-pi*波长(单位:纳米)
- 消光系数
- Wiberg指数
- 辐照波长
属性预测
- 使用GPR-Tanimoto + Fragprints模型进行属性预测。
- 性能指标:
- RMSE: 20.9 nm
- MAE: 13.3 nm
- R^2: 0.90
预测误差分析
- 分析不同模型/表示组合下的预测误差。
TD-DFT比较
- 与Time-Dependent Density Functional Theory (TD-DFT)进行比较。
- 比较指标:
- GPR-Tanimoto + Fragprints的MAE: 14.9 nm
- CAM-B3LYP TD-DFT的MAE: 16.5 nm
- CAM-B3LYP + Linear的MAE: 10.7 nm
- PBE0 TD-DFT的MAE: 26.0 nm
- PBE0 + Linear的MAE: 12.4 nm
人类性能比较
- 比较模型预测误差与人类性能。
泛化误差
- 泛化误差结果:
- RF + Fragprints的RMSE: 85.2 nm (未增强数据集)
- RF + Fragprints的RMSE: 36.9 nm (增强数据集)
数据可视化
- 提供数据集的可视化。
引用信息
- 引用文章:Griffiths, Ryan-Rhys et al. "Data-driven discovery of molecular photoswitches with multioutput Gaussian processes." Chemical Science, 2022.
搜集汇总
数据集介绍

构建方式
在光开关分子领域,The Photoswitch Dataset通过精心筛选和整理,构建了一个包含405个光开关分子的基准数据集。该数据集不仅涵盖了分子结构信息,还详细记录了多种分子特性,如热异构化速率、光稳态分布、π-π*/n-π*电子跃迁波长等。这些数据通过实验测量和密度泛函理论(DFT)计算获得,确保了数据的多样性和准确性。
特点
该数据集的显著特点在于其多维度的分子特性描述,涵盖了从实验测量到理论计算的多种数据类型。此外,数据集中的分子结构采用简化分子输入线输入系统(SMILES)表示,便于分子信息的数字化处理。数据集还提供了多种模型预测结果,如高斯过程回归(GPR)和随机森林(RF),为研究者提供了丰富的对比和分析基础。
使用方法
使用该数据集时,研究者可以通过提供的Python脚本进行属性预测和模型比较。例如,通过运行`predict_with_GPR.py`脚本,可以针对不同的电子跃迁波长任务进行预测。此外,数据集还提供了与时间依赖的密度泛函理论(TD-DFT)计算结果的对比,以及人类性能比较的脚本,便于研究者全面评估模型的性能。
背景与挑战
背景概述
The Photoswitch Dataset,由Ryan-Rhys Griffiths等人于2022年创建,旨在为光开关分子提供一个标准化的基准数据集。该数据集包含了405个光开关分子的详细属性,涵盖了热异构化速率、光稳态分布、电子跃迁波长等多个关键参数。这些数据不仅为分子建模和属性预测提供了丰富的资源,还为光开关材料的设计与优化提供了理论支持。通过与时间相关的密度泛函理论(TD-DFT)进行对比,该数据集展示了其在分子科学领域的广泛应用潜力,尤其在光化学和材料科学的研究中具有重要意义。
当前挑战
The Photoswitch Dataset在构建过程中面临了多重挑战。首先,光开关分子的属性预测涉及复杂的电子跃迁过程,需要精确的模型来捕捉这些微妙的化学现象。其次,数据集的构建需要整合多种实验和理论计算结果,确保数据的准确性和一致性。此外,如何选择和优化分子表示方法,以提高预测模型的性能,也是一个重要的挑战。最后,数据集的泛化能力,即在不同环境和条件下预测结果的可靠性,也是研究者需要解决的关键问题。
常用场景
经典使用场景
在光开关分子领域,The Photoswitch Dataset 的经典应用场景主要集中在分子性质预测上。该数据集包含了405个光开关分子的详细属性,如热异构化速率、光稳态分布、π-π*/n-π*电子跃迁波长等。通过这些数据,研究者可以训练机器学习模型,预测新分子的光物理性质,从而加速新型光开关材料的发现与优化。
解决学术问题
The Photoswitch Dataset 解决了光开关分子领域中分子性质预测的学术难题。通过提供详细的分子属性数据,该数据集使得研究者能够构建高精度的预测模型,从而减少对实验的依赖,降低研究成本。此外,该数据集还为比较不同理论模型(如TD-DFT)的预测性能提供了基准,推动了理论化学与计算化学的发展。
衍生相关工作
The Photoswitch Dataset 的发布催生了一系列相关研究工作。例如,基于该数据集的分子表示方法和机器学习模型的研究,推动了分子性质预测技术的发展。此外,该数据集还被用于验证和改进多种理论计算方法,如TD-DFT和Gaussian Process Regression。这些衍生工作不仅丰富了光开关分子领域的研究内容,还为其他分子性质预测任务提供了参考。
以上内容由遇见数据集搜集并总结生成



