Stereo-200k
收藏arXiv2025-11-21 更新2025-11-25 收录
下载链接:
https://github.com/hustvl/MolSight
下载链接
链接失效反馈官方服务:
资源简介:
Stereo-200k是由华中科技大学研究团队构建的专门针对立体异构分子的光学化学结构识别数据集。该数据集包含20万条精心标注的立体异构分子图像,涵盖楔形键、虚线键等关键立体化学特征,数据来源于易混淆的立体异构分子集合。数据集通过专业化学标注流程构建,确保每个样本都包含精确的立体构型信息。该数据集主要应用于药物发现和化学信息学领域,旨在解决传统光学化学结构识别系统在立体化学信息准确识别方面的核心挑战,为三维分子空间构型识别提供关键训练资源。
Stereo-200k is an optical chemical structure recognition dataset focused on stereoisomeric molecules, developed by the research team at Huazhong University of Science and Technology. This dataset contains 200,000 meticulously annotated stereoisomeric molecular images, covering key stereochemical features such as wedge-shaped bonds and dashed bonds, and is sourced from a collection of confusable stereoisomeric molecules. The dataset is constructed via a professional chemical annotation pipeline, ensuring that each sample contains accurate stereoconfiguration information. Primarily applied in the fields of drug discovery and chemoinformatics, this dataset aims to address the core challenge faced by traditional optical chemical structure recognition systems in accurately identifying stereochemical information, serving as a critical training resource for three-dimensional molecular spatial configuration recognition.
提供机构:
华中科技大学电子信息与通信学院
创建时间:
2025-11-21
原始信息汇总
MolSight数据集概述
项目简介
MolSight是一个用于光学化学结构识别(OCSR)的综合学习框架,通过三阶段训练方法提升模型性能,特别针对立体异构分子。
核心特性
- 采用预训练、多粒度微调和强化学习后训练的三阶段训练方法
- 首个集成强化学习方法的OCSR系统
- 使用Group Relative Policy Optimization(GRPO)算法优化化学语义正确性
- 专门针对易混淆的立体异构分子设计
数据集信息
- 构建了新的标注分子图像数据集Stereo-200k
- 数据集完全由具有挑战性的立体异构分子组成
- 支持MolSight的强化学习训练过程
- 将向研究社区公开
实验成果
- 在准确性、相似性和鲁棒性方面达到最先进性能
- 在大多数场景中优于经典方法和基于学习的方法
- 展现出广泛的下游应用潜力
当前状态
- 代码已发布
- Stereo-200k数据集待发布
- 模型权重待发布
快速开始
安装步骤
bash git clone https://github.com/hustvl/MolSight cd MolSight pip install -r requirements.txt
训练命令
bash
SFT训练
bash train.sh
训练额外坐标预测器
bash train_loc_predictor.sh
强化学习后训练
bash post_train.sh
技术贡献
- 克服了标记级准确性的限制
- 直接优化化学语义正确性
- 有效提高立体异构分子的识别准确率
搜集汇总
数据集介绍

构建方式
在化学信息学领域,立体异构分子的精确识别对药物发现至关重要。Stereo-200k数据集通过系统化流程构建:从PubChem数据库前200万化合物中筛选含立体构型的分子,依据SMILES字符串中的'@'、'/'和'\'符号标识手性与顺反异构体。采用Indigo工具包生成分子图像时,通过随机选择五种绘制风格并加权采样,确保数据在保持化学结构准确性的同时涵盖视觉多样性。
特点
该数据集专攻立体化学识别难点,其核心特征体现在三方面:首先涵盖手性中心与几何异构体的平衡分布,强化模型对楔形键、虚线键等立体标识符的敏感度;其次通过结构相似分子的密集收录,构建具有挑战性的混淆样本集;最后借助多风格渲染技术,模拟真实文献中图像质量的波动,为模型鲁棒性提供验证基础。
使用方法
在光学化学结构识别任务中,该数据集主要服务于强化学习阶段的模型优化。研究人员可将分子图像输入编码器-解码器架构,通过分组相对策略优化算法对生成的SMILES序列进行轨迹级评估。利用RDKit工具计算Tanimoto相似度与立体化学匹配度作为奖励信号,引导模型关注空间构型特征,最终提升对立体异构分子的语义理解能力。
背景与挑战
背景概述
Stereo-200k数据集由华中科技大学研究团队于2025年提出,聚焦于光学化学结构识别领域中的立体化学分子解析难题。该数据集作为MolSight框架的核心组成部分,专门针对手性分子和顺反异构体等立体异构体的视觉特征进行系统标注,填补了传统化学图像数据在三维空间信息表征方面的空白。其构建旨在推动药物发现与化学信息学的发展,通过强化学习优化模型对楔形键、虚线键等立体化学标记的感知能力,为自动化化学数据分析提供关键支撑。
当前挑战
在立体化学光学识别领域,模型需克服二维图像中三维空间信息编码的模糊性,例如楔形键与虚线键的视觉区分、环构象的空间解析等核心难题。数据构建过程中面临立体异构体结构相似性导致的标注歧义,需通过多阶段验证确保空间构型标注的准确性;同时需平衡手性中心与几何异构体的数据分布,避免模型对特定立体化学模式产生过拟合。
常用场景
经典使用场景
在化学信息学领域,Stereo-200k数据集作为首个专注于立体异构体识别的专业资源,其核心应用场景在于训练和验证光学化学结构识别(OCSR)模型对立体化学特征的感知能力。该数据集通过精心设计的分子图像渲染流程,系统覆盖了手性中心、顺反异构体等复杂空间构型,为模型理解楔形键、虚线键等立体化学标记提供了标准化测试平台。在分子结构数字化转换任务中,研究人员利用该数据集评估模型对空间构型敏感度的表现,显著提升了立体异构体识别的准确性与鲁棒性。
实际应用
该数据集在药物研发与化学数据库构建中展现出重要价值。在制药工业领域,基于Stereo-200k训练的模型能够自动解析专利文献中的立体分子结构,加速先导化合物筛选流程;在化学教育领域,其支撑的识别系统可实时转换教材中的二维分子图示为三维可操作模型,增强教学交互性;对于大型语言模型在化学领域的应用,该数据集提供的立体化学标注为分子性质预测、反应路径规划等下游任务提供了关键的结构信息输入,推动智能化化学分析工具的实际部署。
衍生相关工作
Stereo-200k的发布催生了多项创新性研究进展。在方法论层面,其支撑的MolSight框架首次将GRPO强化学习算法引入OCSR任务,开创了化学语义直接优化的新范式;在模型架构方面,启发了基于原子查询的多头预测机制,通过化学键分类与坐标预测的协同训练提升立体识别性能;在技术生态领域,该数据集推动建立了从SMILES-M扩展标记到立体化学评估标准的完整技术链条,为后续Markush结构识别、三维分子重建等研究方向提供了重要借鉴。
以上内容由遇见数据集搜集并总结生成



