MolParse

Hugging Face2026-01-24 更新2026-01-25 收录

下载链接：

https://huggingface.co/datasets/InnovatorLab/MolParse

下载链接

链接失效反馈

官方服务：

资源简介：

MolParse是一个用于光学化学结构解析的大规模多模态数据集，旨在评估和训练模型将分子结构图像转换为结构化的化学表示。该数据集关注科学文献和专利中常见的真实化学图表，强调对视觉噪声、多样化的绘图风格和复杂分子布局的鲁棒性。MolParse支持需要精确视觉感知和结构化化学理解的任务。数据集包含图像和文本两种模态，领域为化学，语言为英语，注释由专家验证，数据规模为大规模（数百万个图像-结构对）。数据集支持多种任务类型，包括分子图像描述、符号和拓扑识别、复杂结构解析以及噪声鲁棒性识别。

创建时间：

2026-01-24

原始信息汇总

MolParse数据集概述

数据集基本信息

数据集名称：MolParse
发布者：InnovatorLab
许可证：MIT
任务类别：视觉问答
模态：多模态
语言：英语
领域：化学
数据规模：1K<n<10K
最新版本：v1.0（发布于2026年1月）

数据集描述

MolParse是一个用于光学化学结构解析的大规模多模态数据集，旨在评估和训练将分子结构图像转换为结构化化学表示的模型。

基准测试范围

MolParse从以下核心能力维度评估模型：

分子结构感知：准确识别原子、键、环系统、稠合结构、取代基、官能团、可变连接点和抽象结构。
结构化化学表示：将分子图像转换为线性化化学字符串、结构化符号表示以及适合下游推理的机器可读格式。
真实文档中的鲁棒性：在噪声或低质量扫描、不同的绘图惯例、拥挤的布局和重叠注释、分辨率与纵横比变化等条件下测试模型稳定性。

数据集特征

任务格式：图像到结构解析
模态：图像 + 文本
领域：化学
语言：英语
标注：专家验证
数据规模：大规模（数百万图像-结构对）

任务类型

每个MolParse样本支持以下一种或多种任务类型：

分子图像描述：将分子图转换为结构化化学字符串。
符号与拓扑识别：识别原子、键、环和连接模式。
复杂结构解析：处理抽象环、可变基团和非规范布局。
噪声鲁棒性识别：在视觉失真或干扰下保持解析准确性。

数据用途

MolParse适用于：

训练端到端光学化学结构识别模型
评估视觉语言和纯视觉化学解析器
科学文档理解流程
下游化学推理和信息提取

数据获取与使用

可通过HuggingFace datasets库加载数据集： python from datasets import load_dataset dataset = load_dataset("InnovatorLab/MolParse")

评估

使用lmms-eval（https://github.com/EvolvingLMMs-Lab/lmms-eval）进行评估。详细评估配置和脚本请参考./evaluation目录下的文件。

引用

若在研究中使用了MolParse，请考虑引用相关论文（引用格式见数据集README）。

搜集汇总

数据集介绍

构建方式

MolParse数据集的构建聚焦于从科学文献与专利中提取真实化学结构图像，通过专家验证的方式确保标注质量。该数据集采用大规模图像-结构对的形式，涵盖数百万个样本，每个样本均经过严格的视觉噪声处理与多样化绘图风格筛选，以模拟实际科研文档中的复杂场景。构建过程中特别注重分子结构的精确识别与结构化表示，确保数据能够支撑从光学图像到机器可读化学格式的完整转换流程。

使用方法

使用MolParse数据集时，可通过HuggingFace的datasets库直接加载，适用于训练端到端的光学化学结构识别模型。该数据集支持评估视觉语言与纯视觉化学解析器，可集成到科学文档理解流程中，用于下游化学推理与信息提取任务。用户可依据提供的评估配置与脚本，利用lmms-eval工具进行模型性能测试，确保解析精度在多样化视觉干扰下仍保持稳定。

背景与挑战

背景概述

在化学信息学领域，光学化学结构解析作为连接视觉数据与结构化化学知识的关键桥梁，长期面临从复杂图像中提取精确分子表示的挑战。MolParse数据集由InnovatorLab于2026年发布，旨在构建一个大规模多模态基准，专门用于评估和训练模型将分子结构图像转化为结构化化学表示的能力。该数据集聚焦于科学文献和专利中常见的真实化学图表，强调对视觉噪声、多样绘制风格及复杂分子布局的鲁棒性，为化学文档理解与信息提取提供了重要资源，推动了视觉-语言模型在专业科学领域的应用。

当前挑战

MolParse数据集致力于解决光学化学结构解析这一核心领域问题，其挑战在于模型需准确识别原子、键、环系统及官能团等元素，并将视觉信息转化为线性化学字符串或机器可读格式，同时保持对低质量扫描、多样绘制惯例及拥挤布局的稳定性。在构建过程中，数据集面临收集涵盖广泛真实场景的分子图像、确保专家验证标注的准确性，以及处理抽象环、可变基团等非规范结构的复杂性，这些因素共同构成了数据质量与模型泛化能力的关键考验。

常用场景

经典使用场景

在化学信息学与计算化学领域，MolParse数据集为光学化学结构解析任务提供了关键基准。该数据集的核心应用场景在于训练端到端的视觉-语言模型，使其能够从科学文献或专利文档中的分子结构图像中，精确提取并转换为结构化的化学表示，如线性化学字符串或机器可读格式。这一过程不仅要求模型具备高精度的视觉感知能力，还需理解复杂的化学拓扑关系，从而支持从嘈杂、多样化的真实世界图像中稳健地重建分子信息。

解决学术问题

MolParse数据集致力于解决化学文档自动化理解中的若干核心学术挑战。它通过提供大规模、专家验证的多模态数据，有效应对了分子图像解析中因视觉噪声、多样绘制风格及复杂布局所导致的识别难题。该数据集促进了模型在原子与键识别、环系统解析以及功能基团检测等方面的能力评估，为开发鲁棒的光学化学结构识别系统奠定了实证基础，推动了化学信息提取与结构化表示研究的前沿进展。

实际应用

在实际应用中，MolParse数据集支撑了多个化学与制药行业的关键流程。其衍生的解析技术可集成于科学文档理解流水线中，自动化处理专利文献或研究论文中的化学图表，加速药物发现中的分子信息检索与数据库构建。此外，该技术亦有助于化学教育工具的开发，通过图像识别辅助学生或研究人员快速获取分子结构数据，提升化学信息获取的效率和准确性，为工业研发与学术研究提供实用化支持。

数据集最近研究