Co-PAS
收藏arXiv2024-12-19 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.14109v1
下载链接
链接失效反馈官方服务:
资源简介:
Co-PAS数据集是由西北工业大学材料科学与工程学院和固态加工国家重点实验室创建的,旨在通过机器学习方法筛选钙钛矿太阳能电池(PSCs)的有机分子添加剂。该数据集包含250,000个分子,来源于PubChem数据库,涵盖了广泛的分子结构和化学性质。数据集的创建过程结合了分子骨架分类器(MSC)和结树变分自编码器(JTVAE)的潜在向量,以提高分子结构表示的准确性。该数据集主要应用于钙钛矿太阳能电池的添加剂筛选,旨在通过高效筛选和优化分子结构,提升太阳能电池的功率转换效率(PCE)。
The Co-PAS dataset was developed by the School of Materials Science and Engineering, Northwestern Polytechnical University, and the State Key Laboratory of Solid State Processing, targeting the screening of organic molecular additives for perovskite solar cells (PSCs) via machine learning methods. This dataset contains 250,000 molecules sourced from the PubChem database, covering a wide range of molecular structures and chemical properties. The development process of the dataset integrates latent vectors from the Molecular Skeleton Classifier (MSC) and Junction Tree Variational Autoencoder (JTVAE) to improve the accuracy of molecular structure representation. This dataset is primarily applied to additive screening for perovskite solar cells, aiming to enhance the power conversion efficiency (PCE) of solar cells through efficient screening and structural optimization of molecular additives.
提供机构:
西北工业大学材料科学与工程学院,固态加工国家重点实验室
创建时间:
2024-12-19
搜集汇总
数据集介绍

构建方式
Co-PAS数据集的构建基于机器学习框架,旨在加速钙钛矿太阳能电池(PSCs)中有机分子添加剂的筛选。首先,研究人员从PubChem数据库中筛选了25万个分子,并通过分子骨架分类器(MSC)进行预筛选,确保分子骨架的多样性。随后,利用Junction Tree Variational Autoencoder(JTVAE)的潜在向量增强分子结构表示,以提高功率转换效率(PCE)预测的准确性。最终,结合领域知识,筛选出具有高PCE预测值的候选分子,并通过实验验证其有效性。
特点
Co-PAS数据集的特点在于其结合了分子骨架分类和JTVAE潜在向量的双重优势,能够有效捕捉分子结构的复杂特征。该数据集涵盖了广泛的分子多样性,确保了模型在面对新分子时的泛化能力。此外,数据集通过多阶段筛选流程,结合了分子性质(如供体数、偶极矩和氢键受体数)的评估,进一步提高了筛选的精确性。实验验证结果表明,筛选出的添加剂如Risedronic acid(RIS)和Boc-L-threonine N-hydroxysuccinimide ester(BTN)显著提升了PSCs的性能,PCE分别达到24.38%和25.20%。
使用方法
Co-PAS数据集的使用方法包括五个关键步骤:首先,通过分子骨架分类器(MSC)对新输入的分子进行骨架分类,确保模型能够处理多样化的分子结构。其次,利用回归模型预测分子的PCE值,筛选出高潜力的候选分子。接着,通过分子性质筛选,评估候选分子的供体数、偶极矩和氢键受体数等关键性质。随后,进行文献分析,验证候选分子与已知化合物的相似性。最后,通过实验验证,评估候选分子在PSCs中的实际性能。这一流程确保了数据集的科学性和实用性,能够有效加速高性能添加剂的发现。
背景与挑战
背景概述
Co-PAS数据集由西北工业大学材料科学与工程学院的研究团队于近年开发,旨在通过机器学习加速钙钛矿太阳能电池(PSCs)中有机分子添加剂的筛选。钙钛矿太阳能电池因其优异的光电性能成为下一代低成本光伏技术的热门候选,但其效率提升受限于钙钛矿薄膜中的缺陷。有机分子添加剂通过缺陷钝化机制,能够显著提升器件性能。然而,传统实验筛选方法耗时且效率低下,面对数百万潜在分子候选,系统化探索极具挑战。Co-PAS通过整合分子骨架分类器(MSC)和基于JTVAE的分子结构表示,克服了传统机器学习模型在小数据集和预定义描述符上的预测偏差,显著提升了功率转换效率(PCE)预测的准确性。该数据集包含129个已知有效钝化分子的数据,并通过筛选PubChem数据库中的25万分子,成功识别出多个高效添加剂,如Boc-L-苏氨酸N-羟基琥珀酰亚胺酯(BTN),其器件PCE达到25.20%。Co-PAS的提出为高性能PSCs添加剂的发现提供了强有力的工具,推动了材料科学领域机器学习应用的进一步发展。
当前挑战
Co-PAS数据集在构建和应用过程中面临多重挑战。首先,钙钛矿太阳能电池添加剂的筛选涉及复杂的化学空间,传统实验方法难以高效探索数百万潜在分子。其次,机器学习模型在小数据集上训练时容易产生预测偏差,难以泛化到未见过的分子结构。Co-PAS通过引入分子骨架分类器(MSC)和JTVAE潜在向量,解决了这一问题,但仍需应对数据不平衡和分子表示不充分带来的挑战。此外,构建过程中,如何从海量分子数据库中筛选出具有潜在高效钝化性能的分子,并确保其化学性质与PCE相关,是一个复杂的多阶段过程。Co-PAS通过整合领域知识,优化了分子筛选流程,但仍需进一步验证其在不同数据集和研究目标中的普适性。最后,实验验证阶段需考虑添加剂的溶解性、界面相互作用等因素,这对实验设计和结果解释提出了更高要求。
常用场景
经典使用场景
Co-PAS数据集在钙钛矿太阳能电池(PSCs)领域中被广泛用于筛选有机分子添加剂,以提升电池的光电转换效率(PCE)。通过结合分子骨架分类器(MSC)和基于JTVAE的潜在向量表示,该数据集能够高效地从大量候选分子中识别出具有潜在高PCE的分子。其经典使用场景包括在实验前通过机器学习模型预测分子的PCE,从而减少实验筛选的时间和成本。
解决学术问题
Co-PAS数据集解决了钙钛矿太阳能电池领域中分子添加剂筛选的两大难题:一是小数据集导致的预测偏差问题,二是传统分子描述符无法捕捉复杂分子结构的局限性。通过引入分子骨架分类器和JTVAE潜在向量,该数据集显著提高了模型对未见分子的预测准确性,推动了高效添加剂的设计与发现。这一突破为钙钛矿太阳能电池的性能优化提供了新的研究思路。
衍生相关工作
Co-PAS数据集的成功应用催生了一系列相关研究工作,特别是在分子表示和机器学习模型优化方面。例如,基于JTVAE的潜在向量表示方法被进一步应用于其他材料科学领域,如有机发光二极管(OLEDs)和催化剂设计。此外,分子骨架分类器的思想也被扩展到其他复杂分子系统的研究中,推动了机器学习在材料发现中的广泛应用。这些衍生工作进一步验证了Co-PAS数据集的创新性和普适性。
以上内容由遇见数据集搜集并总结生成



