Conjugated-xTB
收藏arXiv2025-02-21 更新2025-02-22 收录
下载链接:
https://github.com/SamsungSAILMontreal/STGG-AL
下载链接
链接失效反馈官方服务:
资源简介:
Conjugated-xTB数据集是由三星人工智能研究所蒙特利尔创建的,包含290万个π共轭有机分子。这些分子是由181个手选的π共轭分子片段构建而成,并通过允许的原子索引连接。该数据集涵盖了4-8个片段的分子,最多含有100个重原子。数据集的构建未考虑溶解性,但可以通过给构建块添加烷基链来轻易实现。该数据集用于预训练STGG+模型,并支持生成具有分布式性质的π功能分子。
The Conjugated-xTB dataset was created by Samsung AI Center, Montreal, and comprises 2.9 million π-conjugated organic molecules. These molecules are assembled from 181 hand-picked π-conjugated molecular fragments, linked via allowed atomic indices. This dataset encompasses molecules constructed from 4 to 8 fragments, with a maximum of 100 heavy atoms. Solubility was not considered during the dataset's construction, but can be readily achieved by adding alkyl chains to the constituent building blocks. This dataset is utilized for pre-training the STGG+ model and supports the generation of π-functional molecules with distributed properties.
提供机构:
三星人工智能研究所蒙特利尔
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
Conjugated-xTB数据集的构建方式是通过采样一组由181个手工精选的π共轭分子片段,并在允许的原子索引处连接它们来构造分子。这些分子片段代表常见的可合成的构建模块,被分类为电子供体、受体和中性连接桥。每个片段平均有2.77个连接,因此可以构建出大量不同的分子。对于每个采样的分子,使用ETKDG方法生成32个构象,并使用MMFF94力场进行几何优化。然后,使用半经验量子化学方法GFN2-xTB对最低能量构象进行进一步的几何优化,并使用sTDA-xTB方法近似计算其光学性质。
特点
Conjugated-xTB数据集的特点是包含2.9百万个π共轭有机分子,这些分子具有不同的光学性质,如振荡强度和吸收波长。数据集的构建考虑了分子的化学合理性,并通过半经验量子化学方法对分子的光学性质进行了近似计算。此外,数据集还包含了分子的SMILES表示,方便研究人员进行分子设计和分析。
使用方法
使用Conjugated-xTB数据集的方法包括将其用于训练生成模型,如STGG+,以设计具有特定光学性质的π共轭分子。数据集可以用于评估和验证生成模型的效果,并通过半经验量子化学方法计算分子的光学性质。此外,数据集还可以用于研究π共轭分子的结构-性质关系,以及开发新的分子设计和筛选方法。
背景与挑战
背景概述
Conjugated-xTB数据集的研究背景主要在于探索具有新型光电器件特性的有机分子。π共轭功能性分子由于其π电子的离域特性,在有机发光二极管(OLED)和短波红外(SWIR)吸收器等领域具有广泛的应用前景。传统分子设计方法难以系统地探索化学空间中未知的区域,以识别出分布之外的性质。监督学习方法通常通过模拟给定数据集的分布来解决这个问题,但超出训练集的预测(即出分布泛化)是困难的。无监督方法,如强化学习(RL),虽然强大,但由于化学领域中不完美的奖励模型,RL可能会利用奖励函数生成化学上不可行的分子,除非仔细地正则化。主动学习(Active Learning)结合了监督和无监督学习,通过使用监督学习训练模型,然后迭代地生成新分子,对它们进行标注,并用它们继续训练模型,从而实现从强基础模型和奖励模型的联合采样。STGG+是一种自回归生成模型,它使用基于生成树的图生成,并以监督方式进行训练,具有较强的分布内和分布外能力。本研究将STGG+与主动学习相结合,以设计具有出分布光电器件特性的π共轭分子,这是一个当前RL方法难以解决的问题。
当前挑战
Conjugated-xTB数据集面临的挑战包括:1) 所解决的领域问题是生成具有出分布光电器件特性的有机分子,这些特性在现有数据集中未见。2) 构建过程中遇到的挑战包括如何有效地利用主动学习来扩展模型的知识,以及如何保证生成分子的化学合理性和可合成性。此外,还需要解决主动学习过程中如何有效地平衡样本多样性和性能提升的问题。
常用场景
经典使用场景
Conjugated-xTB数据集主要用于有机π功能材料的分子设计,尤其是针对具有高振子强度和近红外吸收的分子。通过结合STGG+和主动学习,该数据集能够生成具有这些特定光学性质的分子,这对于有机发光二极管(OLED)和近红外成像等应用具有重要意义。
衍生相关工作
Conjugated-xTB数据集衍生了许多相关的研究工作。例如,基于该数据集,研究人员可以进一步探索分子设计的新方法,如改进的主动学习方法或新的生成模型。此外,该数据集还可以用于研究分子性质与结构之间的关系,为理解分子设计的基本原理提供新的视角。
数据集最近研究
最新研究方向
在有机分子的发现与设计中,生成具有新颖的、分布外特性的分子是当前面临的重大挑战。监督学习方法虽然能够生成高质量且与数据集中分子相似的分子,但在泛化到分布外特性方面存在困难。强化学习可以探索新的化学空间,但往往会产生非合成分子。本研究通过将最先进的监督学习方法STGG+(Jolicoeur-Martineau等人,2024年)集成到一个主动学习循环中,解决了这一问题。我们的方法迭代地生成、评估和微调STGG+,以不断扩展其知识。我们将这种方法称为STGG+AL。我们将STGG+AL应用于有机π功能材料的设计,特别是两个具有挑战性的任务:1)生成具有高振子强度和高吸收率的分子,2)设计具有合理振子强度并在近红外(NIR)范围内的吸收分子。生成的分子通过时依赖密度泛函理论(TD-DFT)在计算机上进行验证和合理化。我们的结果表明,我们的方法在生成具有高振子强度的全新分子方面非常有效,这与现有的方法(如强化学习方法)相比具有显著优势。我们开源了我们的主动学习代码以及包含290万π共轭分子的Conjugated-xTB数据集和用于近似振子强度和吸收波长的函数(基于sTDA-xTB)。代码:https://github.com/SamsungSAILMontreal/STGG-AL。
相关研究论文
- 1Generating $π$-Functional Molecules Using STGG+ with Active Learning三星人工智能研究所蒙特利尔 · 2025年
以上内容由遇见数据集搜集并总结生成



