hoang-quoc-trung/fusion-image-to-latex-datasets

Name: hoang-quoc-trung/fusion-image-to-latex-datasets
Creator: hoang-quoc-trung
Published: 2024-04-16 19:23:26
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/hoang-quoc-trung/fusion-image-to-latex-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是目前为止从在线资源中收集和构建的最大数据集，包含了大约340万张图像-文本对，其中包括20万330个手写数学表达式和323万7250个印刷数学表达式。由于数据集规模庞大，且同一数学公式在图像中可能以不同的LaTeX字符串格式表示，容易导致多态歧义。为了解决这一问题，使用了KaTeX解析器进行标准化处理。印刷数学表达式来源于Im2latex-100k、I2L-140K Normalized、Im2latex-90k Normalized、Im2latex-170k、Im2latex-230k、latexformulas和Im2latex等数据集；手写数学表达式来源于CROHME、Aida Calculus Math Handwriting Recognition Dataset和Handwritten Mathematical Expression Convert LaTeX等数据集。

To date, this is the largest dataset collected and constructed from online resources, containing approximately 3.4 million image-text pairs, including 200,330 handwritten mathematical expressions and 3,237,250 printed mathematical expressions. Given the large scale of the dataset and the potential for the same mathematical formula to be represented by distinct LaTeX string formats across different images, polymorphic ambiguity is prone to arise. To address this issue, the KaTeX parser was employed for standardization. The printed mathematical expressions are sourced from datasets including Im2latex-100k, I2L-140K Normalized, Im2latex-90k Normalized, Im2latex-170k, Im2latex-230k, latexformulas, and Im2latex; while the handwritten mathematical expressions are sourced from datasets including CROHME, Aida Calculus Math Handwriting Recognition Dataset, and Handwritten Mathematical Expression Convert LaTeX.

提供机构：

hoang-quoc-trung

原始信息汇总

数据集概述

该数据集是目前为止最大的数据集，包含约3.4百万个图像-文本对，涵盖手写数学表达式和印刷数学表达式。

数据集组成

手写数学表达式：包含200,330个示例。
印刷数学表达式：包含3,237,250个示例。

数据来源

印刷数学表达式：
- Im2latex-100k数据集
- I2L-140K Normalized数据集
- Im2latex-90k Normalized数据集
- Im2latex-170k数据集
- Im2latex-230k数据集
- latexformulas数据集
- Im2latex数据集
手写数学表达式：
- Competition on Recognition of Online Handwritten Mathematical Expressions (CROHME)数据集
- Aida Calculus Math Handwriting Recognition数据集
- Handwritten Mathematical Expression Convert LaTeX数据集

数据处理

由于同一数学公式在图像中可能以不同的LaTeX字符串格式表示，容易导致多态性歧义。为解决此问题，采用KaTeX解析器的规范化方法。

搜集汇总

数据集介绍

构建方式

在数学表达式识别领域，数据集的构建需兼顾多样性与规范性。本数据集通过整合多个公开来源的数学表达式图像与LaTeX文本对，构建了迄今规模最大的图像转LaTeX数据集。具体而言，其汇集了来自Im2latex系列、latexformulas等数据集的印刷体数学表达式，以及CROHME竞赛、Aida Calculus等手写体数学表达式资源，总计约340万对图像-文本样本。为应对同一数学公式可能对应多种LaTeX字符串表示所引发的多态歧义问题，研究团队引入了KaTeX解析器进行标准化处理，有效提升了数据的一致性与可用性。

特点

本数据集的核心特征在于其规模宏大且覆盖全面，囊括了约340万对图像与LaTeX文本，其中印刷体表达式约323.7万例，手写体表达式约20万例，为模型训练提供了充足的多样性。数据来源广泛，既包含结构清晰的印刷公式，也涵盖笔迹各异的手写样本，能够较好地模拟真实场景下的识别需求。通过KaTeX进行的规范化处理，显著降低了因LaTeX表示形式不一致导致的歧义，增强了数据集的内部一致性，为开发鲁棒性强的数学公式识别模型奠定了坚实基础。

使用方法

该数据集主要应用于图像到LaTeX的转换任务，即数学公式光学字符识别。使用者可通过Hugging Face平台加载数据集，直接获取配对的图像与对应的规范化LaTeX序列。在模型训练阶段，该数据适用于训练端到端的视觉-文本生成模型，如基于注意力机制的编码器-解码器架构。研究人员可利用其大规模和多样化的特点，进行模型预训练或微调，以提升模型在印刷体与手写体数学表达式上的识别准确率与泛化能力。数据集的规范化标签也简化了评估过程，便于进行公平的性能比较。

背景与挑战

背景概述

在数学公式识别领域，将图像中的数学表达式转换为LaTeX代码是一项关键任务，它涉及计算机视觉与自然语言处理的交叉研究。hoang-quoc-trung/fusion-image-to-latex-datasets数据集由研究人员hoang-quoc-trung于近期构建，旨在整合多源数据，创建迄今规模最大的图像-LaTeX配对数据集。该数据集汇集了约340万对图像-文本样本，涵盖手写与印刷数学表达式，核心研究问题聚焦于提升模型对复杂数学符号的泛化识别能力，其大规模特性为深度学习模型训练提供了坚实基础，显著推动了数学光学字符识别技术的进展。

当前挑战

该数据集致力于解决数学公式图像到LaTeX代码转换中的多态歧义挑战，即同一数学公式在图像中可能对应多种LaTeX字符串表示，这增加了模型学习的复杂性。构建过程中，数据整合面临异构来源的协调难题，包括不同数据集的格式差异与质量参差，尤其是手写表达式的标注一致性难以保证。此外，大规模数据清洗与归一化处理需借助KaTeX解析器实现标准化，以消除冗余并提升数据集的整体鲁棒性。

常用场景

经典使用场景

在数学表达式识别领域，该数据集为图像到LaTeX转换任务提供了大规模、多样化的训练资源。其经典使用场景在于训练端到端的神经网络模型，如基于注意力机制的编码器-解码器架构，以直接从数学表达式的图像中生成对应的LaTeX代码。通过融合手写与印刷体样本，模型能够学习跨越不同书写风格的泛化特征，从而在复杂公式识别中实现高精度解析。

解决学术问题

该数据集有效解决了数学表达式识别中的多态歧义与泛化性不足等核心学术问题。通过集成多个来源的样本并应用KaTeX解析器进行标准化，它减少了同一公式在LaTeX表示上的不一致性，为模型提供了清晰的学习目标。其大规模特性支持深度学习模型克服过拟合，推动了对跨模态表示学习、序列生成及视觉注意力机制的理论探索，显著提升了领域内基准性能。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在改进图像到LaTeX的转换架构上。例如，基于视觉注意力的神经标记生成模型通过该数据集的增强训练，实现了对长公式的鲁棒解析；后续研究进一步引入了图神经网络或Transformer架构，以更好地捕捉公式的结构化语义。这些工作不仅推动了OCR技术的边界，也为多模态学习在科学计算领域的应用奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集