LightOnOCR-bbox-mix-0126

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/lightonai/LightOnOCR-bbox-mix-0126

下载链接

链接失效反馈

官方服务：

资源简介：

LightOnOCR-bbox-mix-0126是一个大规模OCR训练数据集，包含布局信息。该数据集通过蒸馏方法构建，使用强大的视觉-语言模型生成自然顺序的全页转录（包含Markdown、LaTeX数学公式和HTML表格）。数据集设计用于训练端到端OCR/文档理解模型，输出干净、人类可读的文本。数据集包含PDFA文档的注释，但不包含源PDF文件。每行数据对应一个页面，包括自然阅读顺序的文本转录、结构标记（标题、列表、表格）和数学公式（LaTeX），以及轻量级元数据。数据集适用于训练OCR模型和研究OCR对科学标记的鲁棒性，但存在语言覆盖不均和模型生成错误等限制。

创建时间：

2026-01-16

原始信息汇总

LightOnOCR-bbox-mix-0126 数据集概述

数据集基本信息

数据集名称：LightOnOCR-bbox-mix-0126
发布者：lightonai
许可证：other（具体使用受上游来源条款约束）
任务类别：文本到图像、目标检测
语言：英语、法语、德语、西班牙语、意大利语、日语、俄语、波兰语、荷兰语、中文、葡萄牙语、保加利亚语、土耳其语、乌尔都语、印地语、泰语、阿拉伯语、斯瓦希里语、希腊语、越南语
标签：OCR、边界框
规模类别：100K < n < 1M

数据集描述

LightOnOCR-bbox-mix-0126 是一个大规模OCR训练数据集，包含布局信息，通过蒸馏方式构建：使用一个强大的视觉-语言模型从渲染的文档页面生成自然顺序的全页转录（包含LaTeX数学公式和HTML表格的Markdown文本）。该数据集旨在为端到端OCR/文档理解模型提供监督，这些模型旨在输出干净、人类可读且格式一致的文本。

此存储库发布的是用于LightOnOCR-2-1B训练混合的PDFA衍生注释子集。不分发源PDF文件；仅提供文本目标（及相关元数据）。源文档可以从pixparse/pdfa-eng-wds恢复。

数据内容

每个数据行对应单个页面，包含：

自然阅读顺序的文本转录
结构（标题、列表、表格）和数学公式（数学公式块内的LaTeX）的标记
由标准化/验证流程生成的轻量级元数据

数据格式与特征

数据集包含以下特征：

key：源PDF的唯一标识符
page_idx：用于转录的PDF文档的源页码
content：标准化转录目标（包含LaTeX数学公式块和HTML表格的Markdown文本）
metadata：元数据结构
- element_counts：元素计数结构
  - formulas：转录中LaTeX分隔的公式数量
  - images：转录中图像占位符数量
  - tables：转录中HTML表格数量
- token_length：转录的令牌长度（使用LightOnOCR-2-1B-0126分词器模型）

数据划分与规模

划分：
- pdfa_train：训练集，包含417,507个样本，大小约1,108,203,340字节
- pdfa_validation：验证集，包含2,000个样本，大小约5,304,577字节
总数据集大小：约1,113,507,917字节
下载大小：约630,049,538字节

生成与处理

教师模型：使用最先进的视觉-语言模型教师生成注释（详见LightOnOCR-2论文）。
目标格式：Markdown格式，包含：
- 限制在数学公式块内的LaTeX数学公式
- 相关时包含边界框信息坐标的标准化图像占位符
- 以无样式的最小化HTML格式表示的表格
标准化与清理：应用统一的标准化流程，包括：
- 文本清理：移除虚假的Markdown代码围栏/标记；统一空格。
- 去重/过滤：计算标准化文本的哈希值并过滤常见故障模式（如循环式重复）。
- LaTeX验证：强制格式不变量（LaTeX限制在数学公式块内）并可选检查KaTeX兼容性。
边界框：蒸馏过程中，教师模型偶尔会发出图形边界框坐标。这些坐标从主要的OCR目标中移除，但保留为图像定位的单独监督信号。

预期用途

训练/微调输出自然阅读顺序文本的端到端OCR视觉-语言模型
研究OCR对科学标记（数学公式、参考文献、结构化文本）的鲁棒性
基准测试格式稳定性/标准化技术

不适用场景

重建或重新分发原始PDF文件
未经进一步验证的高风险应用

局限性

目标是模型生成的，可能包含偶尔的幻觉或格式错误，尤其是在极其复杂的布局上。
语言覆盖范围在欧洲语言内容上最强；在底层来源中代表性不足的文字上性能可能有所不同。

许可与使用条款

PDFA衍生部分（来自PDFA / SafeDocs / CC-MAIN-2021-31-PDF-UNTRUNCATED）

此数据集包含源自PDFA / SafeDocs语料库（CC-MAIN-2021-31-PDF-UNTRUNCATED）的PDF文档的衍生注释。该数据集的PDFA衍生部分根据上游条件提供：用户必须遵守Common Crawl的许可证和使用条款以及Digital Corpora项目的使用条款。

相关资源

论文：https://arxiv.org/pdf/2601.14251
模型：https://huggingface.co/lightonai/LightOnOCR-2-1B
源代码PDF：https://huggingface.co/datasets/pixparse/pdfa-eng-wdspixparse/pdfa-eng-wds

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，构建高质量的训练数据是提升模型性能的关键。LightOnOCR-bbox-mix-0126数据集通过知识蒸馏技术构建，利用先进的视觉-语言模型作为教师模型，从渲染的文档页面中生成自然阅读顺序的完整页面转录。转录内容采用Markdown格式，并包含LaTeX数学公式和HTML表格的结构化标记。原始转录经过统一的规范化处理流程，包括文本清理、去重过滤以及LaTeX验证，以消除不一致性并确保格式统一，从而为端到端OCR模型提供稳定可靠的监督信号。

特点

该数据集在文档理解任务中展现出显著的多模态特性。其核心特点在于提供了包含布局信息的自然阅读顺序转录，覆盖了数学公式、图像和表格等多种文档元素。数据集支持包括英语、法语、德语、中文在内的多种语言，具有较强的跨语言适应性。此外，数据集附带了轻量级元数据，如元素计数和文本长度，便于进行数据分析和模型训练中的样本筛选。尽管数据集不包含原始PDF文件，但其转录目标旨在输出清晰、人类可读的标准化文本格式。

使用方法

该数据集主要应用于训练和微调端到端的光学字符识别视觉-语言模型，旨在输出符合自然阅读顺序的文本。研究人员可利用其研究OCR模型对科学标记（如数学公式、参考文献和结构化文本）的鲁棒性，或用于评估格式稳定性与规范化技术。在使用时，需通过HuggingFace平台加载数据集，并依据提供的元数据信息进行预处理和样本选择。用户应遵守上游数据源的使用条款，并注意该数据集不适用于原始PDF的重建或高风险应用场景。

背景与挑战

背景概述

LightOnOCR-bbox-mix-0126数据集由LightOnAI研究团队于2024年构建，旨在为端到端光学字符识别与文档理解模型提供大规模、高质量的监督数据。该数据集通过蒸馏技术生成，利用先进的视觉-语言模型从渲染的文档页面中提取自然阅读顺序的全文转录，并整合了布局信息，如数学公式的LaTeX表示和表格的HTML结构。其核心研究问题聚焦于提升OCR模型在处理复杂文档结构时的准确性与鲁棒性，特别是在科学文献等富含多模态元素的场景中。该数据集的发布显著推动了文档智能领域的发展，为后续模型如LightOnOCR-2-1B的训练提供了关键支持，并在多语言OCR任务中展现出广泛的应用潜力。

当前挑战

该数据集致力于解决文档智能领域中端到端OCR模型的训练挑战，即如何从包含复杂布局的文档中准确提取并结构化文本信息，同时保持数学公式、表格等元素的语义完整性。构建过程中的主要挑战包括：首先，蒸馏生成的目标文本可能存在幻觉或格式不一致，需通过归一化流水线进行清洗和验证；其次，多语言文档的覆盖范围不均衡，欧洲语言内容占主导，其他文字脚本的表现可能受限；此外，数据集中不包含原始PDF文件，仅提供文本标注，这限制了其在某些需要图像输入的研究中的应用。这些挑战要求研究者在模型训练与评估中采取额外的验证步骤，以确保数据的可靠性与泛化能力。

常用场景

经典使用场景

在文档智能领域，LightOnOCR-bbox-mix-0126数据集为端到端OCR模型的训练提供了关键支持。其核心应用场景在于训练视觉语言模型，以生成符合自然阅读顺序的文本转录，同时保留文档的布局结构信息，如数学公式的LaTeX表示和表格的HTML格式。通过蒸馏技术生成的标注数据，使得模型能够学习从渲染的文档页面中提取并规范化文本内容，特别适用于处理包含复杂科学标记的学术文献，从而提升OCR系统在多样化文档类型上的泛化能力。

衍生相关工作

基于LightOnOCR-bbox-mix-0126数据集，衍生出了多项经典研究工作，其中最突出的是LightOnOCR-2-1B模型的开发。该模型利用数据集的蒸馏标注进行训练，实现了端到端的文档转录与理解，并在OCR鲁棒性和格式稳定性方面取得显著改进。此外，数据集还促进了文档布局分析、数学表达式识别以及多模态语言模型的研究，为后续如pixparse/pdfa-eng-wds等数据集的构建提供了方法论参考，推动了整个文档智能领域的技术演进。

数据集最近研究