five

ConstantHao/EDU-CHEMC_MM23

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ConstantHao/EDU-CHEMC_MM23
下载链接
链接失效反馈
官方服务:
资源简介:
We now released the EDU-CHEMC dataset, which was initially proposed in Paper "Handwritten Chemical Structure Image to structure-Specific Markup Using Random Conditional Guided Decoder". All images are in folder EDU-CHEMC. We provide an annotation json file for each image with same filename. In each json, there are three keys: * chemfig: the origin chemfg string annotated by humans, which can be rendered with textlive when use chemfg package * ssml_sd: the training target of SSSL-SD, where modeling units can be seperated by space. One can directly feed modeling units into encoder-decoder models. You can also obtain the graph format by simply parsing. * ssml_rcgd: the training targets of SSSL-RCGD. Since there are multiple SSSL-RCGD targets for a training image, we randomly sampled some of them so the value corresponding to this key is an array. * We now explain the format of SSSL-RCGD. Each training target of SSSL-RCGD is an array sorted by time step, where each element is a three-tuple (text, reconnection marks, condition input) * text: string, the base modeling unit * condition input: int, the index (start from 0) of the candidate BAU(Branch Angle Unit) to be fed into decoder at current time step * reconnection marks: an array, where each element is a two-tuple (reconnection index, bond type) * reconnection index: the index the candidate BAU which forms a reconnection with element of current time step * bond type: string, the bond type of reconnection * ssml_normed: the submission format of ICDAR2024 CROCS Competition, see https://crocs-ifly-ustc.github.io/crocs/data.html We also provide EDU-CHEMC.vocab which contains all modeling units.
提供机构:
ConstantHao
搜集汇总
数据集介绍
main_image_url
构建方式
EDU-CHEMC_MM23数据集源自《Handwritten Chemical Structure Image to structure-Specific Markup Using Random Conditional Guided Decoder》一文,专为手写化学结构图像到结构化标记的转换任务而设计。其构建方式为:所有图像存放于EDU-CHEMC文件夹中,每张图像配有一一对应的JSON注释文件。每个JSON文件包含三个关键字段:chemfig字段存储人工标注的原始Chemfig字符串,可用于通过 Chemfig 宏包渲染;ssml_sd字段为SSSL-SD模型的训练目标,其中的建模单元以空格分隔,可直接输入编码器-解码器模型,也可通过解析获得图结构;ssml_rcgd字段则对应SSSL-RCGD模型的训练目标,由于每张训练图像对应多个目标,该字段以数组形式随机采样若干序列,每个序列由按时间步排序的三元组(文本、重连标记、条件输入)构成;ssml_normed字段遵循ICDAR2024 CROCS竞赛的提交格式。此外,数据集提供EDU-CHEMC.vocab词汇表,涵盖所有建模单元。
特点
该数据集的核心特色在于其多目标、多层次的结构化标注体系。首先,它同时支持三种不同层次的标记表示:Chemfig字符串提供人类可读的原始化学式,ssml_sd与ssml_rcgd则为两种不同的序列化训练目标,分别服务于不同的解码器架构。特别是ssml_rcgd格式引入了条件输入与重连机制:每个时间步的条件输入索引指明当前需馈入解码器的候选分支角度单元(BAU),而重连标记数组则记录当前单元与其他候选BAU之间的重连关系及其键类型。这种设计巧妙地将化学结构的空间拓扑信息编码为有序序列,使模型能逐步生成分支与连接,适合处理复杂的手写化学结构。此外,数据集的随机采样策略增加了训练数据的多样性,增强了模型的鲁棒性。
使用方法
使用EDU-CHEMC_MM23数据集时,研究者可根据自身模型架构选择合适的标注格式。若采用传统的编码器-解码器模型,可直接使用ssml_sd字段的序列作为训练目标,其建模单元以空格分隔,便于分词与输入。若需利用条件引导与重连机制,则应使用ssml_rcgd字段的数组,每个元素的三元组结构需按时间步顺序解析:文本部分作为基本建模单元,条件输入索引用于控制解码器的分支选择,重连标记则用于重建化学键连接。建议配合提供的词汇文件EDU-CHEMC.vocab进行单元编码。对于参与ICDAR2024 CROCS竞赛的团队,可直接提取ssml_normed字段数据按官网格式提交。数据加载时,需遍历图像文件夹并读取对应JSON文件,按需取用相关字段即可。
背景与挑战
背景概述
EDU-CHEMC_MM23数据集由研究团队在论文《Handwritten Chemical Structure Image to structure-Specific Markup Using Random Conditional Guided Decoder》中首次提出,专注于手写化学结构图像到结构特定标记的转换任务。该数据集由多个研究机构联合创建,旨在解决化学文档数字化中的关键瓶颈——手写化学结构图像的自动识别与解析。通过提供精细标注的化学结构图像及其对应的多种标记格式(如Chemfig字符串、SSML格式等),数据集为化学信息学与计算机视觉交叉领域提供了标准化基准。其发布对推动化学结构自动识别技术的进步具有重要意义,为后续研究如ICDAR 2024 CROCS竞赛提供了数据支持。
当前挑战
该数据集所解决的领域核心挑战在于手写化学结构图像的高度复杂性与歧义性,包括手写笔画的变形、分支角度偏差、连接点不清晰等问题,这些使得传统图像识别方法难以准确捕捉化学结构中的原子连接关系与键型。构建过程中面临的主要挑战包括:设计统一的标注框架以兼容多种标记语法(如Chemfig与SSML),确保随机条件引导解码器中条件输入的合理性;以及人工标注复杂手写化学结构时的高成本与一致性难题,例如多源标注员对分支角度候选单元的选择差异。此外,数据集需平衡标注异质性(如SSML-RCGD的多目标采样)与模型训练稳定性,这对标注策略的鲁棒性提出了严苛要求。
常用场景
经典使用场景
在化学文档分析与识别的学术疆域中,手写化学结构图像的自动解析一直是一片亟待深耕的沃土。EDU-CHEMC_MM23数据集正是为此而生,它收录了大量手写化学结构图像及其对应的多种结构化标注,成为训练与评估端到端图像到化学标记序列模型的黄金标准。该数据集最经典的应用场景聚焦于基于深度学习的序列生成任务,研究者利用其提供的SSML格式标注,可训练编码器-解码器架构,将复杂的手写分子图形转化为精确的化学结构描述语言,从而跨越了图像域与符号域之间的语义鸿沟。
实际应用
在实际应用层面,该数据集化身化学信息学自动化的基石,赋能于多个高价值场景。在科研文献的数字化归档中,它使得大量包含手写化学结构式的手稿、实验记录本能够被高效索引与检索,加速科学知识的传播与复用。在化学教育领域,基于该数据集训练的模型可嵌入智能批改系统,自动识别学生在答题纸上绘制的反应路径与分子结构,提供即时反馈与评分辅助。此外,它在药物发现流程中亦扮演关键角色,能够将化学家日常手绘的候选分子结构迅速转化为机器可读的标记语言,无缝对接下游的虚拟筛选与分子性质预测管线。
衍生相关工作
围绕EDU-CHEMC_MM23已催生出一系列富有影响力的后续工作,其中最具代表性的是其在领域竞赛中的系统性应用——ICDAR 2024 CROCS挑战赛直接采用该数据集的规范化提交格式作为评测基准,吸引了全球团队角逐手写化学结构识别的最优范式。在方法论层面,研究者基于该数据集提出了随机条件引导解码器(RCGD)与顺序结构感知序列学习(SSSL)两大框架,前者通过引入分支角度单元的概念实现递归式的图结构生成,后者则以可分离的建模单元简化了序列学习的复杂性。这些工作不仅验证了数据集的学术价值,也为化学结构解析领域注入了新的理论增长点。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作