OleehyO/latex-formulas

Name: OleehyO/latex-formulas
Creator: OleehyO
Published: 2024-05-09 08:50:51
License: 暂无描述

Hugging Face2024-05-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OleehyO/latex-formulas

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个部分：raw_formulas和cleaned_formulas。raw_formulas数据集是从arxiv抓取的约100万未清理的LaTeX公式图像-文本对，而cleaned_formulas数据集是通过清理raw_formulas数据集并与im2latex-100K数据集整合得到的，包含55万公式-图像对。数据集主要用于图像到文本的任务，特别是LaTeX公式的识别和转换。

提供机构：

OleehyO

原始信息汇总

数据集概述

数据集名称及配置

cleaned_formulas
- 特征:
  - image: 图像数据类型
  - latex_formula: 字符串数据类型
- 分割:
  - train: 552340个样本，数据集大小为2918992848.46字节，下载大小为2778067493字节
raw_formulas
- 特征:
  - latex_formula: 字符串数据类型
- 分割:
  - train: 1006245个样本，数据集大小为240965616字节，下载大小为89507618字节

数据集内容

cleaned_formulas: 包含550K公式-图像对，由清理raw_formulas数据集并整合im2latex-100K数据集得到。
raw_formulas: 包含约100万未清理的LaTeX公式图像-文本对，未进行文本分割。

数据集使用

加载cleaned_formulas数据集: python from datasets import load_dataset data = load_dataset("OleehyO/latex-formulas", "cleaned_formulas")
加载raw_formulas数据集: python from datasets import load_dataset data = load_dataset("OleehyO/latex-formulas", "raw_formulas")

数据集预处理

cleaned_formulas预处理:
- 移除无用垃圾数据和过于复杂的公式。
- 删除特定环境下的内容，如 ag, ext等。
- 替换和删除特定LaTeX环境。
raw_formulas内容不包含特定LaTeX命令和环境。

搜集汇总

数据集介绍

构建方式

在光学字符识别与文档数字化领域，LaTeX公式识别是一项极具挑战性的任务，其核心瓶颈在于缺乏大规模、高质量的图文配对数据。为突破这一限制，研究者从学术预印本平台arXiv中采集了约100万条未清洗的LaTeX公式及其对应的渲染图像，构建了原始数据集raw_formulas。随后，对该数据集执行了严格的清洗流程：剔除了包含复杂宏定义、长宽比超过0.8、字符长度大于200的公式，移除了 ag、 ext等干扰标记，并将不同环境统一为align*格式。在此基础上，融合了经典的im2latex-100K数据集，最终形成了包含55万对公式-图像的cleaned_formulas数据集，为后续模型训练奠定了坚实的数据基础。

特点

该数据集的核心优势在于其规模与质量的精妙平衡。cleaned_formulas子集提供了55万对经过严格筛选的公式-图像配对，有效消除了原始数据中的噪声与冗余，同时通过环境统一化处理显著增强了数据的一致性。raw_formulas子集则保留了约100万条原始LaTeX公式，为需要大规模语料的研究场景提供了丰富的原始素材。数据集覆盖了equation、align、gather等多种常见数学环境，且渲染图像依赖于amsmath、amsfonts等标准宏包，确保了公式视觉呈现的规范性与可复现性。这种双轨设计使得数据集既能服务于高精度识别模型的训练，又能支持无监督或半监督学习方法的探索。

使用方法

研究者可通过HuggingFace Datasets库便捷地加载该数据集。对于需要原始LaTeX公式文本的应用，使用load_dataset('OleehyO/latex-formulas', 'raw_formulas')即可获取约100万条未清洗的公式字符串。而对于图像到文本的识别任务，推荐使用load_dataset('OleehyO/latex-formulas', 'cleaned_formulas')加载55万对结构化的公式-图像配对数据，其中image字段为渲染后的公式图像，latex_formula字段为对应的LaTeX源码。该数据集已与TexTeller模型深度整合，可直接用于训练端到端的公式识别系统，覆盖从简单行内公式到复杂多行对齐公式的广泛场景。

背景与挑战

背景概述

在学术出版与科研文档的数字化进程中，LaTeX公式的自动识别与图像重建技术扮演着至关重要的角色。该数据集由OleehyO团队于2024年发布，旨在解决从文档图像中精准提取并还原数学公式的核心研究问题。研究团队从arXiv平台采集了约100万条未经处理的LaTeX公式文本-图像对，构建了raw_formulas子集，并在此基础上结合经典的im2latex-100K数据集，经过严格清洗与标准化处理，最终形成了包含55万对高质量公式-图像对的cleaned_formulas数据集。该数据集不仅为图像到LaTeX公式的转换任务提供了丰富的训练资源，还催生了高精度的公式识别模型TexTeller，显著推动了光学公式识别领域的发展，成为学术与工业界研究的重要基础。

当前挑战

当前数据集面临的挑战主要体现在两个层面。在领域问题层面，LaTeX公式识别需应对数学符号的多样性、复杂嵌套结构以及不同渲染风格的干扰，尤其是公式中特殊环境（如align、gather）的准确解析与边界界定仍是一大难题。在构建过程中，原始数据采集自arXiv，存在大量噪声，如自定义宏命令、无用标签（如\label、\quad）以及长宽比异常或字符长度过大的复杂公式，这些都需要精细的清洗与过滤。此外，不同公式环境（如equation与align）的标准化替换，以及确保渲染图像与LaTeX文本的高度一致性，也对数据预处理流程提出了严苛要求，直接影响到最终数据集的可用性与模型泛化能力。

常用场景

经典使用场景

在光学字符识别与文档智能处理领域，LaTeX公式图像到文本的转换是一项极具挑战性的任务。OleehyO/latex-formulas数据集以其规模庞大的公式-图像配对资源，成为训练图像到文本（image-to-text）模型的核心基石。该数据集的经典使用场景聚焦于构建端到端的LaTeX公式识别系统，通过利用cleaned_formulas中经严格清洗的55万对高质量样本，研究者能够训练出将复杂数学公式图像精准翻译为LaTeX语法序列的深度学习模型。这一过程不仅考验模型对数学符号、结构层级和排版规范的认知能力，更推动了OCR技术在学术文献数字化中的深度应用。

衍生相关工作

该数据集衍生了一系列具有里程碑意义的学术工作，其中最突出的便是TexTeller模型——一个基于该数据训练的专用公式识别器，以其高精度和强泛化能力覆盖了绝大多数公式识别场景。此外，该数据集还催生了多个针对LaTeX公式生成与识别的研究方向，包括但不限于基于注意力机制的编码器-解码器架构优化、多模态预训练模型在公式理解上的迁移应用，以及对抗训练提升复杂公式鲁棒性等。这些工作不仅验证了数据集的质量与规模优势，更推动了图像到文本领域从通用OCR向专业数学表达式理解的纵深发展。

数据集最近研究