CROHME+ 和 MathWriting+
收藏arXiv2025-08-27 更新2025-08-29 收录
下载链接:
https://doi.org/10.5281/zenodo.14968570
下载链接
链接失效反馈官方服务:
资源简介:
CROHME+ 和 MathWriting+ 数据集是为在线手写数学表达式识别(HMER)任务而创建的,它们提供了丰富的结构化注释,包括符号分割、分类和空间关系,这些数据集的创建旨在促进可解释的HMER研究。数据集包含374,000个数学表达式,为HMER任务提供了详尽的跟踪级别细节。这些数据集通过使用一个神经网络来自动地将LaTeX方程映射到原始跟踪,从而自动生成符号分割、分类和空间关系的注释。我们的结构识别系统生成一个完整的图结构,直接将手写跟踪链接到预测符号,从而实现透明的错误分析和可解释的输出。我们的结果挑战了结构方法过时的观念,证明了它们在高质量注释数据的支持下是可行的。
The CROHME+ and MathWriting+ datasets were developed for the task of Online Handwritten Mathematical Expression Recognition (HMER), providing rich structured annotations including symbol segmentation, classification and spatial relationships. These datasets were created to advance interpretable HMER research. The datasets contain 374,000 mathematical expressions, offering exhaustive trace-level details for the HMER task. These datasets automatically generate annotations for symbol segmentation, classification and spatial relationships by utilizing a neural network to map LaTeX equations to raw handwritten traces. Our structural recognition system generates a complete graph structure that directly links handwritten traces to predicted symbols, enabling transparent error analysis and interpretable outputs. Our results challenge the outdated notion that structural methods are obsolete, demonstrating their viability when supported by high-quality annotated data.
提供机构:
德国维尔茨堡大学计算机视觉实验室
创建时间:
2025-08-27
搜集汇总
数据集介绍

构建方式
在数学表达式识别领域,数据标注的精细化程度直接影响模型性能。CROHME+与MathWriting+数据集通过创新的自动标注系统构建,该系统采用双向长短期记忆神经网络,将原始笔迹坐标与LaTeX标签进行对齐,自动生成符号分割、分类及空间关系的结构化注释。该网络在CROHME-2023训练集上训练,结合动态数据增强与严格交叉验证,成功为37.4万个数学表达式添加MathML格式的轨迹组与关系标注,显著提升了标注效率与可靠性。
特点
作为面向结构化手写数学表达式识别的高质量数据集,CROHME+与MathWriting+的核心特点在于其完备的符号-轨迹对齐注释。CROHME+覆盖CROHME-2023中84%的合成数据与66%的真实数据,提供精确的符号分割边界与空间层级关系;MathWriting+则扩展至254个符号类别,尽管缺乏原始标注,仍通过跨数据集泛化实现了67%的样本高质量标注。两数据集均包含轨迹级分组信息与MathML关系树,支持模块化模型训练与可解释性分析,为结构感知应用奠定了数据基础。
使用方法
该数据集专为推动可解释性手写数学表达式识别研究而设计,适用于训练与评估模块化结构识别系统。研究者可依据轨迹分组标签训练独立的分割模型,利用符号分类注释优化多模态分类器,并通过空间关系数据构建关系预测模块。数据集提供的Stroke Label Graph可直接转换为LaTeX输出,同时支持透明错误分析与交互式应用开发。使用时需注意数据分区:CROHME+保留原始训练/验证/测试划分,MathWriting+建议采用交叉验证以应对其无官方划分的特点。
背景与挑战
背景概述
手写数学表达式识别(HMER)作为教育技术领域的核心基础,其发展长期受限于结构化标注数据的稀缺。2025年,德国维尔茨堡大学计算机视觉实验室的Jakob Seitz团队发布了CROHME+和MathWriting+数据集,通过神经网络自动标注系统将LaTeX方程与原始笔迹轨迹对齐,生成了包含符号分割、分类及空间关系的完整结构化注释。该数据集首次实现了37.4万个数学表达式的自动化标注,解决了传统HMER数据集中仅8.2%样本具备MathML关系标注的局限性,为可解释性AI和空间感知应用提供了关键数据支撑。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决数学表达式中的空间层级关系(如上标、分数)、符号歧义(如'O'与'0')及多样化手写风格的识别难题;在构建过程中,原始数据缺乏可靠的结构化标注(CROHME仅44%样本具备有效Trace Group标签),需通过跨数据集泛化技术将CROHME训练的模型迁移至符号类别更多元的MathWriting数据集,并设计严格交叉验证机制确保标注质量,同时处理无时间戳轨迹数据的标准化与空间关系映射问题。
常用场景
经典使用场景
在在线手写数学表达式识别领域,CROHME+和MathWriting+数据集为结构化学术研究提供了关键支撑。其最经典的应用场景在于训练和验证模块化识别系统,通过符号分割、分类和空间关系预测的三阶段框架,实现对复杂数学公式的精确解析。该数据集特别适用于处理包含上下标、分式等空间层级结构的表达式,为算法在真实书写场景中的鲁棒性评估奠定基础。
解决学术问题
该数据集解决了传统端到端方法缺乏符号-轨迹对齐的核心学术问题,显著提升了HMER系统的可解释性。通过提供完整的MathML和TraceGroup标注,它支持符号级错误分析和结构可视化,克服了黑盒模型在错误归因方面的局限性。此外,数据集填补了结构标注数据的空白,为图神经网络和混合架构的研究提供了标准化评估基准,推动了解释性人工智能在数学表达式识别领域的发展。
衍生相关工作
该数据集催生了多项基于结构解析的创新研究。图到图模型(G2G)利用其标注优化了在线HMER的符号关联预测;GGM-EGAT网络进一步结合局部与全局图注意力机制,提升了空间关系推理能力。在离线识别领域,QD-GGA和LGAP等工作中采用符号布局树生成方法,其灵感源于该数据集提供的结构化标注范式。这些工作共同推动了基于图推理的HMER方法发展,形成了解释性识别技术的研究脉络。
以上内容由遇见数据集搜集并总结生成



