five

SubGrapher

收藏
arXiv2025-04-28 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.19695v1
下载链接
链接失效反馈
官方服务:
资源简介:
SubGrapher是一个用于从化学结构图像中提取分子指纹的方法。它通过分割模型识别图像中的功能团和碳骨架,构建一个基于子结构的指纹,从而实现化学结构的检索。数据集、模型和代码将公开可用。

SubGrapher is a method for extracting molecular fingerprints from chemical structure images. It identifies functional groups and carbon skeletons in images via a segmentation model, constructs a substructure-based fingerprint, thereby enabling chemical structure retrieval. The dataset, model and code will be publicly available.
提供机构:
IBM Research, ETH Zürich, INSAIT
创建时间:
2025-04-28
搜集汇总
数据集介绍
main_image_url
构建方式
SubGrapher数据集的构建采用了先进的实例分割技术,专注于从化学结构图像中直接提取分子指纹。通过两个独立的Mask-RCNN网络,分别识别1,534种专家定义的功能基团和27种碳骨架模式,确保了分子多样性的广泛覆盖。数据生成流程利用RDKit库从PubChem中选择分子SMILES进行渲染,并通过扩展的SVG后处理生成子结构掩码注释,特别针对Markush结构进行了优化,以增强数据集的多样性和实用性。
特点
SubGrapher数据集的核心特点在于其独特的视觉指纹方法,通过功能基团和碳骨架的子结构检测,构建了基于子结构的分子图,进而转化为矩阵形式的分子指纹。这种指纹不仅支持子结构搜索和相似性搜索,还能有效处理复杂的Markush结构和非标准绘图惯例。数据集覆盖了广泛的有机化合物,包括专利文档和科学期刊中的分子图像,具有高度的多样性和挑战性。
使用方法
SubGrapher数据集的使用方法主要包括三个步骤:首先,通过实例分割网络检测输入分子图像中的功能基团和碳骨架;其次,根据检测到的子结构构建子结构图;最后,将子结构图转换为分子指纹。该指纹可用于分子检索、相似性搜索以及下游预测任务。用户可以通过提供的SMILES查询,利用欧几里得距离度量指纹相似性,实现高效的分子检索和分类。
背景与挑战
背景概述
SubGrapher数据集由IBM Research、ETH Zurich和INSAIT的研究团队于2025年推出,旨在解决化学结构图像识别领域的核心问题。该数据集专注于从科学文献和专利文档中自动提取化学结构信息,特别是通过视觉指纹技术直接识别功能基团和碳骨架结构。传统的光学化学结构识别(OCSR)方法通常试图重建完整的分子图,而SubGrapher的创新之处在于其直接生成分子指纹的能力,从而显著提升了化学结构检索的效率和准确性。这一技术对药物发现和材料科学等领域具有重要影响,能够加速非结构化化学数据的整合与分析。
当前挑战
SubGrapher数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,化学结构图像的多样性和复杂性(如非标准绘图惯例、图像质量退化以及Markush结构的广泛使用)使得传统的OCSR方法难以准确识别和提取分子信息。此外,某些化学结构无法通过SMILES字符串完全表示,进一步增加了识别的难度。在构建过程中,缺乏带有掩码注释的真实文档分子图像数据集是一个主要障碍。为此,研究团队采用了合成数据生成管道,并通过扩展其功能来支持Markush结构的生成和注释,以确保数据集的多样性和覆盖范围。
常用场景
经典使用场景
SubGrapher数据集在化学信息学领域中被广泛用于分子指纹的视觉识别和检索。该数据集通过实例分割网络识别化学结构图像中的功能基团和碳骨架,构建基于子结构的分子指纹,从而支持高效的分子检索和相似性搜索。这一方法特别适用于处理专利文档和科学文献中的化学结构图像,解决了传统文本搜索无法覆盖的视觉信息提取问题。
解决学术问题
SubGrapher数据集解决了化学结构图像识别中的多个关键学术问题,包括功能基团的精确识别、分子指纹的直接生成以及非标准化学图示的处理。通过引入基于掩码的分割方法,该数据集显著提升了分子子结构检测的准确性和鲁棒性,为化学信息检索和分子属性预测提供了可靠的数据支持。其创新性在于将光学化学结构识别(OCSR)与分子指纹生成结合为一个统一的流程,避免了传统方法中繁琐的中间步骤。
衍生相关工作
SubGrapher数据集衍生了一系列经典研究工作,包括基于深度学习的分子图像分割方法、分子指纹的优化算法以及化学结构检索系统的开发。例如,MolGrapher和ChemGrapher等研究利用类似的技术路线进一步提升了化学结构识别的精度。此外,SubGrapher的指纹生成方法也为后续的分子相似性搜索和属性预测研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作