UnidentifiedHidden/hexopyranose_stereoisomers
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/UnidentifiedHidden/hexopyranose_stereoisomers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含所有32种六吡喃糖立体异构体(`OCC1OC(O)C(O)C(O)C1O`)的DFT优化3D几何结构,这是一种具有5个立体中心的六元糖环。它专为需要精细立体化学区分的分子嵌入方法(如库仑矩阵和键袋表示)的基准测试而设计。每个异构体有两种椅式构象(Chair1和Chair2),所有64种结构均在DFT级别进行了优化,并通过频率分析验证为真实最小值。数据集还包括用于分子嵌入生成的最稳定椅式构象,以及包含SMILES、立体键、能量等信息的摘要表格。
This dataset contains DFT-optimized 3D geometries for all 32 stereoisomers of hexopyranose (`OCC1OC(O)C(O)C(O)C1O`), a six-membered sugar ring with 5 stereocenters. It is designed for benchmarking molecular embedding methods that require fine stereochemical discrimination, such as the Coulomb Matrix and Bag of Bonds representations. Each isomer has two chair conformations (Chair1 and Chair2), and all 64 structures were optimized at the DFT level and verified as true minima via frequency analysis. The dataset also includes the most stable chair conformation for each stereoisomer for molecular embedding generation, as well as summary tables with SMILES, stereokeys, energies, and other information.
提供机构:
UnidentifiedHidden
搜集汇总
数据集介绍

构建方式
本数据集聚焦于六元吡喃糖(hexopyranose)这一具有5个立体中心的分子骨架,系统性地涵盖了其全部32种立体异构体。鉴于每种异构体存在两种椅式构象(Chair1与Chair2),共64种三维结构均采用ORCA 6.1.1软件,在ωB97X-D4泛函与aug-cc-pVTZ基组水平上完成DFT几何优化。频率分析验证了所有结构均为势能面上的真实极小点,确保了几何构型的物理可靠性。数据以层级目录组织,分别存储两种椅式构象及每种异构体的最低能量构象,并附有ORCA完整输出文件与汇总表格。
特点
该数据集的核心特点在于其精细的立体化学分辨率与结构多样性。每个立体异构体通过一个5字符的立体键(stereokey)唯一标识,清晰编码了各手性中心的R/S构型。XYZ文件中除了标准原子坐标,还嵌入总电子能量与等构SMILES,便于直接关联结构与能量信息。双椅式构象的存贮使得能量排序与优势构象分析成为可能。数据集专为分子嵌入方法(如库仑矩阵与键包表示)的基准测试设计,能够严格评估算法对微妙立体差异的区分能力。
使用方法
数据集可通过多种方式便捷调用。使用Pandas可直接读取CSV摘要表获取能量与优势构象信息。解析XYZ文件时,可采用内置Python函数提取原子坐标与能量,也可借助ASE库直接读取分子对象进行后续模拟。对于分子嵌入生成,推荐结合DScribe工具包,批量读取最低能量构象的XYZ文件后,一键计算库仑矩阵或键包表示。此外,提供的无立体键SMILES表格专为RDKit构象生成工作流设计,便于对比DFT优化与力场生成的结构差异。
背景与挑战
背景概述
六吡喃糖作为糖化学中六元环糖的基本骨架,其立体化学多样性对生物活性与药物设计具有决定性影响。该数据集由研究团队于2025年创建,基于密度泛函理论(DFT)对六吡喃糖全部32种立体异构体及其两种椅式构象进行几何优化与频率分析,共包含64个高精度分子结构。核心研究问题聚焦于分子嵌入方法对细微立体化学差异的区分能力。通过提供标准化、可复现的基准数据,该数据集在计算化学与机器学习交叉领域展现出重要影响力,为Coulomb矩阵和键袋等分子表示方法的评估提供了首个针对环状糖类立体异构体的验证平台。
当前挑战
该数据集所解决的核心领域问题在于:分子嵌入方法对立体化学细微差异的敏感性不足,传统编码方式难以区分仅因手性中心构型不同而产生的结构变体。构建过程中面临多重挑战:需要对32种立体异构体分别构建两种椅式构象的初始结构,确保全部64个计算任务达到DFT/aug-cc-pVTZ精度的收敛标准;通过频率分析验证势能面真实极小值以排除过渡态;在数据组织上需同步兼容xyz格式的几何信息与完整ORCA输出文件,并设计无碱基化学键立体键的CSV文件以支持不同工作流。
常用场景
经典使用场景
六吡喃糖立体异构体数据集汇集了该分子所有32种立体异构体的DFT优化几何结构,每个异构体还包含两种椅式构象,总计64个高精度分子结构。该数据集最经典的用途在于作为分子嵌入方法的基准测试平台,尤其适用于需要精细区分立体化学特征的表示学习技术,如库仑矩阵和键合袋等描述符的性能评估。通过提供经过严格频率分析验证的全局极小构象,数据集为比较不同分子表示方法在捕获立体异构体间微妙能量差异和几何变化方面的能力,提供了标准化且可重复的评估框架。
衍生相关工作
该数据集的发布催生了一系列围绕分子立体化学表示方法的比较与改进工作。研究者利用其系统性的异构体集合,深入分析库仑矩阵和键合袋描述符在恒定分子式条件下区分构型差向异构体的能力上限,并据此提出了修正的距离缩放策略和原子类型加权方案。部分衍生的经典工作还包括基于该数据集的分子图神经网络框架改进,通过在该基准上验证,揭示了消息传递机制因对称性丧失而无法充分学习立体信息的根本局限,从而推动了双通道或手性感知图神经网络架构的发展。
数据集最近研究
最新研究方向
该数据集聚焦于六元吡喃糖所有32种立体异构体的DFT优化几何结构,为分子嵌入方法(如库仑矩阵与键袋表示)的立体化学精细判别提供了基准。在计算化学与机器学习交叉的前沿,该数据集推动了基于量子化学计算的分子表征学习研究,尤其适用于手性分子识别、构象分析及能量排序等热点领域。其高精度(ωB97X-D4/aug-cc-pVTZ)与系统涵盖性(含椅式构象能量对比)为开发新型立体选择性预测模型奠定了基础,对药物设计与糖化学中的虚拟筛选具有重要支撑意义。
以上内容由遇见数据集搜集并总结生成



