SMiCRM
收藏arXiv2024-07-26 更新2024-07-30 收录
下载链接:
https://doi.org/10.5281/zenodo.11060696
下载链接
链接失效反馈官方服务:
资源简介:
SMiCRM数据集由香港科技大学化学与生物工程系创建,包含453张PNG格式的分子图像,这些图像来自化学反应机制,每张图像都标注了相应的SMILES符号和结构数据文件。数据集的创建过程中,通过筛选具有机械特征的分子图像,并使用ASKCOS工具手动绘制分子图,转换为标准SMILES格式。该数据集主要用于评估和提升光学化学结构识别技术,特别是在处理复杂的化学反应图像时,能够增强机器对化学反应机制的理解和识别能力。
提供机构:
香港科技大学化学与生物工程系
创建时间:
2024-07-26
搜集汇总
数据集介绍

构建方式
SMiCRM数据集的构建,是通过筛选包含有机化学反应机制中的分子结构及机制箭头的图像,共计453幅PNG格式图像。其中17幅图像来源于之前工作的反应图像数据集,经过裁剪仅保留分子图像部分。剩余的436幅图像则从已命名的化学反应机制集合中捕获并提取。每幅图像都通过开源的计算机辅助合成规划工具ASKCOS手动绘制为分子图,并转换为规范的SMILES表示,同时记录为独立的结构数据文件(SDF)。
特点
该数据集的特点在于提供了丰富的注解分子图像,用于增强光学化学结构识别(OCSR)方法的基准测试过程。每幅图像均伴有其规范的SMILES表示,以便进行标准化评估。SMiCRM涵盖了在有机反应机制中常见的广泛分子图像,为视觉理解化学的测量能力提供了一个具有挑战性的集合。数据集遵循FAIR原则,确保可发现性、可访问性、互操作性和可重用性。
使用方法
使用SMiCRM数据集时,研究者可以将其作为标准化测试集来评估现有或新开发的OCSR系统性能,避免针对这一有限示例集合的过拟合。建议研究者仅使用该数据集来衡量工具性能,而不是用于机器学习模型的参数拟合。通过这一标准化评估推进工具的进步,有助于在复杂化学图表的机器阅读方面取得进展。
背景与挑战
背景概述
SMiCRM数据集,全称为Structural Molecular Identifier of Molecular images in Chemical Reaction Mechanisms,是一个为衡量光学化学结构识别(OCSR)系统在识别带有箭头标注的化学反应机制图像方面的性能而设计的基准数据集。该数据集由香港科技大学化学与生物工程系的研究人员于2024年创建,旨在提升机器学习模型对化学结构及其反应机制的识别能力。SMiCRM包含453张有机化学反应机制的分子图像,每张图像均带有分子结构和反应机理箭头标注。该数据集的构建,为评估和改进OCSR方法提供了一个更加真实和具有挑战性的任务,有助于丰富计算机提取的化学反应数据中的机理信息。
当前挑战
SMiCRM数据集面临的挑战主要体现在两个方面:一是所解决的领域问题,即图像中的噪声(如分子内外的曲线箭头、部分电荷和反应箭头)对分子识别的影响;二是构建过程中的挑战,包括如何准确提取和标注图像中的分子结构和反应机理箭头。此外,由于数据集规模有限,不适合单独用于机器学习模型的训练,而应作为评估现有或新开发OCSR系统的标准测试集,以避免对这有限示例集的过度拟合。
常用场景
经典使用场景
在化学信息的计算机视觉识别领域,SMiCRM数据集的典型应用场景在于为机器学习模型提供具有箭头标注的化学反应机制图像,以训练模型识别并解析化学结构及其反应机理。该数据集包含的分子图像涉及多种有机化学反应,并伴有表示电子流动的箭头和部分电荷,为OCSR方法提供了一个真实而具有挑战性的基准测试。
衍生相关工作
基于SMiCRM数据集,研究者可以进一步开展相关工作,如开发更加精确的化学结构识别算法,或者构建集成了化学反应机理理解的智能系统。该数据集的发布已经激发了一系列针对化学图像识别和解析的研究,包括但不限于DECIMER和MolScribe等模型的改进与优化,以及针对复杂化学图像的深度学习方法的探索。
数据集最近研究
最新研究方向
SMiCRM数据集的构建旨在推进光学化学结构识别(OCSR)技术在提取化学反应机理中的分子结构信息方面的应用。该数据集汇集了453张有机化学反应机理中的分子图像,并伴有分子结构和反应机理箭头的标注,为评估OCSR方法在识别带有反应机理信息的分子图像方面的性能提供了一个挑战性的基准。近期研究聚焦于如何准确识别图像中的分子及其反应机理,尤其是对于那些包含箭头标注和其他机理特征的复杂图像。SMiCRM数据集的推出,不仅丰富了机器学习模型在化学领域中的应用,也为提升计算机辅助化学反应数据提取的机理信息提供了新的视角和数据支持,对于促进化学信息学和计算机视觉的交叉融合具有重要意义。
相关研究论文
- 1SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images香港科技大学化学与生物工程系 · 2024年
以上内容由遇见数据集搜集并总结生成



