five

MathWriting

收藏
arXiv2024-04-17 更新2024-06-21 收录
下载链接:
https://storage.googleapis.com/mathwriting_data/mathwriting-2024.tgz
下载链接
链接失效反馈
资源简介:
MathWriting数据集是迄今为止最大的在线手写数学表达式数据集,由谷歌研究院创建。该数据集包含23万个人工编写的样本和额外的40万个合成样本,不仅适用于在线HME识别,还可通过光栅化用于离线ME识别。数据集涵盖了244个数学符号和10个语法标记,支持多种结构,如矩阵。创建过程中,数据主要通过内部Android应用收集,使用数字笔或触摸屏在设备屏幕上复制数学表达式。MathWriting数据集的应用领域广泛,旨在解决手写数学表达式识别的问题,推动相关技术的发展。

The MathWriting dataset, created by Google Research, is the largest online handwritten mathematical expression (HME) dataset to date. It contains 230,000 manually authored samples plus an additional 400,000 synthetic samples, and is applicable not only to online HME recognition but also to offline ME recognition through rasterization. The dataset covers 244 mathematical symbols and 10 grammatical markers, and supports diverse structures including matrices. During its development, the data was primarily collected via an internal Android application, where users copied mathematical expressions on device screens using digital pens or touchscreens. The MathWriting dataset has a wide range of application scenarios, aiming to solve the problem of handwritten mathematical expression recognition and advance the development of relevant technologies.
提供机构:
谷歌研究院
创建时间:
2024-04-17
搜集汇总
数据集介绍
main_image_url
构建方式
MathWriting数据集的构建方式分为两个主要部分:真人书写样本和合成样本的收集。真人书写样本通过内部Android应用程序收集,参与者使用数字笔或手指在触摸屏上复制显示在设备屏幕上的数学表达式。这些表达式首先以LATEX格式获得,然后通过LATEX编译器渲染成位图。真人书写样本的收集分为六次活动,每次持续2到3周,共收集了253k个样本。为了增加标签多样性并弥补真人书写样本长度有限的缺点,研究人员还创建了396k个合成样本,这些样本通过将单个符号的墨迹拼接到LATEX编译器生成的边界框中来生成完整的表达式。
特点
MathWriting数据集具有以下特点:1)规模庞大,包含253k个真人书写样本和396k个合成样本,是目前为止最大的在线手写数学表达式数据集;2)覆盖符号种类丰富,包括244个数学符号和10个语法标记,能够支持更复杂的识别能力;3)数据格式为InkML,方便与其他在线数据集结合使用;4)提供标签的标准化形式,简化了训练过程并提高了评估的鲁棒性;5)包含合成样本的边界框信息,方便研究人员进行合成墨迹生成实验。
使用方法
MathWriting数据集可用于训练和评估手写数学表达式识别模型。用户可以根据需要选择真人书写样本或合成样本进行训练,也可以将两者结合使用。由于数据集格式为InkML,因此可以直接用于在线识别任务。对于离线识别任务,可以通过将墨迹光栅化来使用该数据集。此外,数据集还提供了标签的标准化形式,方便用户进行模型训练和评估。用户还可以使用数据集提供的代码示例来读取数据、处理墨迹、光栅化墨迹和标记LATEX标签。
背景与挑战
背景概述
数学公式识别是自然语言处理和计算机视觉领域的一个重要分支,它涉及到将手写或印刷的数学表达式转换为可编辑的数字格式。MathWriting 数据集是迄今为止最大的在线手写数学表达式数据集,由 Google Research 于 2024 年 4 月发布。该数据集包含 23 万个人类书写样本和额外的 40 万个合成样本,可用于在线和离线手写数学表达式识别。MathWriting 数据集的发布旨在缓解研究手写数学表达式识别所需的数据需求,并推动该领域的研究进展。
当前挑战
MathWriting 数据集面临的主要挑战包括:1) 数学表达式的结构比文本更复杂,需要更精细的识别模型来处理其二维结构和符号之间的关系;2) 手写数学表达式比印刷的更难识别,因为它们更模糊,且存在多种书写风格;3) 收集手写样本的成本很高,因为它们需要由人类书写,并且在线表示(墨水)需要使用专用硬件;4) 数据集构建过程中需要处理标签噪声和书写风格差异等问题。
常用场景
经典使用场景
MathWriting数据集作为迄今为止最大的在线手写数学表达式数据集,其经典使用场景主要集中于手写数学表达式识别。该数据集包含253k个手写表达式和396k个合成表达式,涵盖了244个数学符号和10个语法标记,能够有效训练和评估手写数学表达式识别模型。例如,利用MathWriting数据集,可以训练CTC Transformer、PaLI等模型,并进行模型性能评估,以推动在线和离线手写数学表达式识别研究。
解决学术问题
MathWriting数据集解决了手写数学表达式识别领域数据匮乏的问题。传统上,手写样本的获取成本较高,且在线手写数学表达式数据集相对较少。MathWriting数据集的发布,为研究人员提供了大量高质量的手写数学表达式样本,有效推动了手写数学表达式识别技术的发展。此外,MathWriting数据集还引入了新的基准,用于评估在线和离线数学表达式识别模型的性能,为学术研究提供了重要的参考。
衍生相关工作
MathWriting数据集的发布,促进了手写数学表达式识别领域相关研究的发展。例如,基于MathWriting数据集,研究人员可以开展手写数学表达式识别模型的结构和算法研究,探索更有效的识别方法和模型。同时,MathWriting数据集还可以与其他数据集结合使用,如CROHME23数据集,以进一步提高手写数学表达式识别模型的性能。此外,MathWriting数据集还可以用于开发手写数学表达式识别相关的应用程序,如手写数学公式识别软件、手写数学公式输入法等,为用户提供便捷的数学表达式输入方式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作