UniMER_Dataset

github2024-07-24 更新2024-07-25 收录

下载链接：

https://github.com/SWHL/TrOCR-Formula-Rec

下载链接

链接失效反馈

官方服务：

资源简介：

UniMER_Dataset是一个用于公式识别的数据集，包含1061,791个LaTeX-Image对，分为训练集和测试集。测试集包含四种类型公式，总共23757张图像。

The UniMER_Dataset is a dataset dedicated to mathematical formula recognition, which includes 1,061,791 LaTeX-Image pairs and is split into a training set and a test set. The test set encompasses four types of mathematical formulas, with a total of 23,757 images.

创建时间：

2024-07-16

原始信息汇总

TrOCR Formula Recognition 数据集概述

数据集结构

数据集目录结构如下： text dataset ├── UniMER-1M │ ├── images │ └── train.txt └── UniMER-Test ├── cpe ├── hwe ├── sce ├── spe ├── cpe.txt ├── hwe.txt ├── sce.txt └── spe.txt

数据集详情

训练集：总共包含 1,061,791 个 LaTeX-Image 对。
测试集：由 4 种类型公式组成，总共 23,757 张图像：
- Simple Printed Expressions (SPE): 6,762 样本
- Complex Printed Expressions (CPE): 5,921 样本
- Screen Capture Expressions (SCE): 4,742 样本
- Handwritten Expressions (HWE): 6,332 样本

实验记录

实验表格来自 UniMERNet Table 5，展示了不同方法在各种指标上的表现。

Method	SPE-BLEU↑	SPE-EditDis↓	CPE-BLEU↑	CPE-EditDis↓	SCE-BLEU↑	SCE-EditDis↓	HWE-BLEU↑	HWE-EditDis↓
Pix2tex	0.873	0.088	0.655	0.408	0.092	0.817	0.012	0.920
Texify	0.906	0.061	0.690	0.230	0.420	0.390	0.341	0.522
UniMERNet	0.917	0.058	0.916	0.060	0.616	0.229	0.921	0.055
Exp1	0.815	0.121			0.589	0.227	0.150	0.520

实验备注

Exp1：首次基于 UniMER-1M 训练，采用预训练模型是 microsoft/trocr-small-stage1，采用 TrOCR 默认 Tokenizer。
Exp2：更改 LaTex-OCR 方法用的 BPE Tokenizer。

搜集汇总

数据集介绍

构建方式

UniMER_Dataset的构建基于UniMER-1M数据集，通过整合多种类型的LaTeX-Image pairs，形成了一个包含1,061,791个训练样本的庞大集合。测试集则细分为四种类型：Simple Printed Expressions (SPE)、Complex Printed Expressions (CPE)、Screen Capture Expressions (SCE)和Handwritten Expressions (HWE)，共计23,757张图像。这种结构化的数据组织方式，旨在为公式识别任务提供全面且多样化的训练和评估资源。

特点

UniMER_Dataset的显著特点在于其大规模和多样性。训练集包含超过百万的LaTeX-Image pairs，确保了数据的丰富性和覆盖面。测试集则通过细分不同类型的公式表达，提供了对模型性能的多维度评估。此外，数据集的构建还考虑了实际应用场景，如屏幕截图和手写表达，增强了数据集的实用性和广泛适用性。

使用方法

使用UniMER_Dataset进行模型训练时，建议首先下载完整数据集，并按照提供的目录结构进行组织。在训练过程中，可以采用预训练模型如`microsoft/trocr-small-stage1`，并根据实验需求调整训练参数，如epoch数和数据增强策略。此外，数据集的多样性允许用户针对不同类型的公式表达进行专项训练和评估，从而优化模型的识别精度和泛化能力。

背景与挑战

背景概述

UniMER_Dataset是由UniMERNet项目衍生出的一个专门用于公式识别的数据集，旨在解决复杂公式识别的挑战。该数据集由多个研究人员和机构共同开发，创建于近年，其核心研究问题是如何在不同类型的公式（如打印、手写、屏幕截图等）中实现高效且准确的识别。UniMER_Dataset的发布对公式识别领域产生了显著影响，为研究人员提供了一个全面且多样化的数据资源，推动了该领域的技术进步。

当前挑战

UniMER_Dataset在构建过程中面临多项挑战。首先，数据集的多样性要求模型能够处理不同来源和风格的公式图像，这对模型的泛化能力提出了高要求。其次，数据集的规模庞大，包含超过百万的LaTeX-Image对，如何在有限的计算资源下高效训练模型是一个重要挑战。此外，数据集的构建还需要解决图像质量不一致、标注准确性等问题，以确保数据集的质量和可靠性。最后，如何在保持模型轻量化的同时，提升识别精度也是该数据集面临的一大挑战。

常用场景

经典使用场景

在自然语言处理和计算机视觉的交叉领域，UniMER_Dataset 被广泛用于公式识别任务。该数据集包含了大量的 LaTeX-Image 对，涵盖了从简单打印表达式到复杂手写表达式的多种类型。研究人员利用这一数据集训练和评估模型，以实现从图像到 LaTeX 公式的自动转换，这在学术文档处理和教育技术中具有重要应用。

衍生相关工作

基于 UniMER_Dataset，许多研究工作得以展开，包括但不限于改进模型架构、优化训练算法以及扩展数据集的应用范围。例如，一些研究者通过引入更先进的图像处理技术，提升了公式识别的准确率；另一些则探索了如何在移动设备上实现高效的公式识别应用。这些衍生工作进一步推动了公式识别技术在实际场景中的应用和普及。

数据集最近研究