five

OleehyO/latex-formulas

收藏
Hugging Face2024-05-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OleehyO/latex-formulas
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个部分:raw_formulas和cleaned_formulas。raw_formulas数据集是从arxiv抓取的约100万未清理的LaTeX公式图像-文本对,而cleaned_formulas数据集是通过清理raw_formulas数据集并与im2latex-100K数据集整合得到的,包含55万公式-图像对。数据集主要用于图像到文本的任务,特别是LaTeX公式的识别和转换。

该数据集包含两个部分:raw_formulas和cleaned_formulas。raw_formulas数据集是从arxiv抓取的约100万未清理的LaTeX公式图像-文本对,而cleaned_formulas数据集是通过清理raw_formulas数据集并与im2latex-100K数据集整合得到的,包含55万公式-图像对。数据集主要用于图像到文本的任务,特别是LaTeX公式的识别和转换。
提供机构:
OleehyO
原始信息汇总

数据集概述

数据集名称及配置

  • cleaned_formulas
    • 特征:
      • image: 图像数据类型
      • latex_formula: 字符串数据类型
    • 分割:
      • train: 552340个样本,数据集大小为2918992848.46字节,下载大小为2778067493字节
  • raw_formulas
    • 特征:
      • latex_formula: 字符串数据类型
    • 分割:
      • train: 1006245个样本,数据集大小为240965616字节,下载大小为89507618字节

数据集内容

  • cleaned_formulas: 包含550K公式-图像对,由清理raw_formulas数据集并整合im2latex-100K数据集得到。
  • raw_formulas: 包含约100万未清理的LaTeX公式图像-文本对,未进行文本分割。

数据集使用

  • 加载cleaned_formulas数据集: python from datasets import load_dataset data = load_dataset("OleehyO/latex-formulas", "cleaned_formulas")

  • 加载raw_formulas数据集: python from datasets import load_dataset data = load_dataset("OleehyO/latex-formulas", "raw_formulas")

数据集预处理

  • cleaned_formulas预处理:
    • 移除无用垃圾数据和过于复杂的公式。
    • 删除特定环境下的内容,如 ag, ext等。
    • 替换和删除特定LaTeX环境。
  • raw_formulas内容不包含特定LaTeX命令和环境。
搜集汇总
数据集介绍
main_image_url
构建方式
在光学字符识别与文档数字化领域,LaTeX公式识别是一项极具挑战性的任务,其核心瓶颈在于缺乏大规模、高质量的图文配对数据。为突破这一限制,研究者从学术预印本平台arXiv中采集了约100万条未清洗的LaTeX公式及其对应的渲染图像,构建了原始数据集raw_formulas。随后,对该数据集执行了严格的清洗流程:剔除了包含复杂宏定义、长宽比超过0.8、字符长度大于200的公式,移除了 ag、 ext等干扰标记,并将不同环境统一为align*格式。在此基础上,融合了经典的im2latex-100K数据集,最终形成了包含55万对公式-图像的cleaned_formulas数据集,为后续模型训练奠定了坚实的数据基础。
特点
该数据集的核心优势在于其规模与质量的精妙平衡。cleaned_formulas子集提供了55万对经过严格筛选的公式-图像配对,有效消除了原始数据中的噪声与冗余,同时通过环境统一化处理显著增强了数据的一致性。raw_formulas子集则保留了约100万条原始LaTeX公式,为需要大规模语料的研究场景提供了丰富的原始素材。数据集覆盖了equation、align、gather等多种常见数学环境,且渲染图像依赖于amsmath、amsfonts等标准宏包,确保了公式视觉呈现的规范性与可复现性。这种双轨设计使得数据集既能服务于高精度识别模型的训练,又能支持无监督或半监督学习方法的探索。
使用方法
研究者可通过HuggingFace Datasets库便捷地加载该数据集。对于需要原始LaTeX公式文本的应用,使用load_dataset('OleehyO/latex-formulas', 'raw_formulas')即可获取约100万条未清洗的公式字符串。而对于图像到文本的识别任务,推荐使用load_dataset('OleehyO/latex-formulas', 'cleaned_formulas')加载55万对结构化的公式-图像配对数据,其中image字段为渲染后的公式图像,latex_formula字段为对应的LaTeX源码。该数据集已与TexTeller模型深度整合,可直接用于训练端到端的公式识别系统,覆盖从简单行内公式到复杂多行对齐公式的广泛场景。
背景与挑战
背景概述
在学术出版与科研文档的数字化进程中,LaTeX公式的自动识别与图像重建技术扮演着至关重要的角色。该数据集由OleehyO团队于2024年发布,旨在解决从文档图像中精准提取并还原数学公式的核心研究问题。研究团队从arXiv平台采集了约100万条未经处理的LaTeX公式文本-图像对,构建了raw_formulas子集,并在此基础上结合经典的im2latex-100K数据集,经过严格清洗与标准化处理,最终形成了包含55万对高质量公式-图像对的cleaned_formulas数据集。该数据集不仅为图像到LaTeX公式的转换任务提供了丰富的训练资源,还催生了高精度的公式识别模型TexTeller,显著推动了光学公式识别领域的发展,成为学术与工业界研究的重要基础。
当前挑战
当前数据集面临的挑战主要体现在两个层面。在领域问题层面,LaTeX公式识别需应对数学符号的多样性、复杂嵌套结构以及不同渲染风格的干扰,尤其是公式中特殊环境(如align、gather)的准确解析与边界界定仍是一大难题。在构建过程中,原始数据采集自arXiv,存在大量噪声,如自定义宏命令、无用标签(如\label、\quad)以及长宽比异常或字符长度过大的复杂公式,这些都需要精细的清洗与过滤。此外,不同公式环境(如equation与align)的标准化替换,以及确保渲染图像与LaTeX文本的高度一致性,也对数据预处理流程提出了严苛要求,直接影响到最终数据集的可用性与模型泛化能力。
常用场景
经典使用场景
在光学字符识别与文档智能处理领域,LaTeX公式图像到文本的转换是一项极具挑战性的任务。OleehyO/latex-formulas数据集以其规模庞大的公式-图像配对资源,成为训练图像到文本(image-to-text)模型的核心基石。该数据集的经典使用场景聚焦于构建端到端的LaTeX公式识别系统,通过利用cleaned_formulas中经严格清洗的55万对高质量样本,研究者能够训练出将复杂数学公式图像精准翻译为LaTeX语法序列的深度学习模型。这一过程不仅考验模型对数学符号、结构层级和排版规范的认知能力,更推动了OCR技术在学术文献数字化中的深度应用。
衍生相关工作
该数据集衍生了一系列具有里程碑意义的学术工作,其中最突出的便是TexTeller模型——一个基于该数据训练的专用公式识别器,以其高精度和强泛化能力覆盖了绝大多数公式识别场景。此外,该数据集还催生了多个针对LaTeX公式生成与识别的研究方向,包括但不限于基于注意力机制的编码器-解码器架构优化、多模态预训练模型在公式理解上的迁移应用,以及对抗训练提升复杂公式鲁棒性等。这些工作不仅验证了数据集的质量与规模优势,更推动了图像到文本领域从通用OCR向专业数学表达式理解的纵深发展。
数据集最近研究
最新研究方向
在光学字符识别与文档智能处理领域,LaTeX公式识别作为连接数学符号与计算机可解析表达的关键桥梁,正迎来数据驱动的范式革新。OleehyO/latex-formulas数据集的最新演进——扩充至近8000万样本的latex-formulas-80M版本,标志着该方向从百亿级数据规模向海量多模态语料库的跨越式突破。这一进展紧密关联着科研文献数字化、在线教育自动批改及学术搜索引擎升级等热点应用场景。基于该数据集训练的TexTeller模型,凭借其在复杂公式场景中的高精度与强泛化能力,不仅验证了大规模、高质量图像-公式对数据的核心价值,更推动了从传统模板匹配到端到端神经翻译的技术跃迁。该数据集的持续迭代为构建通用型数学表达式识别系统奠定了坚实的数据基石,显著加速了科学知识自动化处理的进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作