deepseek-batch-ocr-dataset-1024

Hugging Face2026-01-12 更新2026-01-13 收录

下载链接：

https://huggingface.co/datasets/florentgbelidji/deepseek-batch-ocr-dataset-1024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如样本ID、数据集索引、源图像、带框文档图像、文档Markdown文本、提取的图形、提取的图形元数据以及最终文档Markdown文本。数据集包含一个名为'train'的分割，共有1023个样本，总大小约为996 MB。

创建时间：

2026-01-09

原始信息汇总

数据集概述

数据集基本信息

数据集名称: florentgbelidji/deepseek-batch-ocr-dataset-1024
数据集地址: https://huggingface.co/datasets/florentgbelidji/deepseek-batch-ocr-dataset-1024
总数据量: 996,117,792 字节
下载大小: 988,627,473 字节
数据示例数量: 1,023 个
数据划分: 仅包含训练集 (train)

数据结构与特征

数据集包含以下字段：

sample_id: 样本唯一标识符 (字符串类型)
dataset_index: 数据集索引 (64位整数类型)
source_image: 原始源图像 (图像类型)
document_with_boxes_image: 带边界框的文档图像 (图像类型)
document_markdown: 文档的Markdown格式文本 (字符串类型)
extracted_figures: 提取的图形列表 (图像列表类型)
extracted_figures_metadata: 提取图形的元数据列表 (字符串列表类型)
document_final_markdown: 文档最终Markdown文本 (字符串类型)

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在文档智能领域，高质量的数据集是推动光学字符识别与版面分析技术发展的基石。deepseek-batch-ocr-dataset-1024的构建过程体现了系统化的数据工程方法。该数据集从原始图像出发，通过自动化流程生成包含文本定位框的标注图像，并提取文档的Markdown格式文本。同时，它还专门识别并分离了文档中的图形元素，为每个图形保存了独立的图像文件及其元数据，最终整合为结构化的训练样本集合，确保了数据在格式与内容上的一致性。

特点

该数据集的核心特征在于其多层次、结构化的信息呈现方式。它不仅提供了原始的文档图像，还包含了经过版面分析后的带框标注图像，直观展示了文本区域的位置信息。数据集以Markdown格式保留了文档的语义结构与文本内容，便于直接用于语言模型训练。尤为突出的是，它将文档中的图形元素进行了精细化提取，形成了独立的图像列表并附有描述性元数据，这种图文分离的存储方式为多模态任务提供了极大便利。

使用方法

对于研究人员和开发者而言，该数据集为训练和评估文档理解模型提供了标准化的输入输出对。使用者可以加载`source_image`进行端到端的OCR模型训练，或利用`document_with_boxes_image`和`document_markdown`进行版面分析与文本识别任务的监督学习。提取出的图形列表`extracted_figures`及其元数据可用于图文关联分析或图像描述生成等任务。最终整合的`document_final_markdown`字段则可直接作为文档重构或内容生成的训练目标，支持从视觉到语义的完整文档智能流水线开发。

背景与挑战

背景概述

随着人工智能在文档分析与视觉信息处理领域的深入发展，高效且精准的文档光学字符识别（OCR）成为推动多模态智能应用的关键。DeepSeek-Batch-OCR-Dataset-1024由深度求索公司构建，旨在应对大规模文档图像中文本、版面结构与图形元素的协同解析需求。该数据集通过集成原始图像、带标注框的文档图像、Markdown格式文本及提取的图形数据，为文档理解与信息抽取任务提供了结构化、多模态的训练资源，显著促进了智能文档处理、知识图谱构建及自动化办公等方向的研究进展。

当前挑战

在文档OCR领域，核心挑战在于处理复杂版式、多样字体及低质量图像下的文本识别与版面分析，同时需准确分离并理解图形与文本的语义关联。数据集的构建过程中，面临多模态数据对齐、标注一致性维护及大规模高质量样本采集等难题。具体而言，如何确保文档图像、边界框标注、Markdown文本与提取图形间的精确对应，并在保持数据多样性的同时控制标注成本，是构建此类数据集时需克服的关键技术障碍。

常用场景

经典使用场景

在文档智能与光学字符识别领域，该数据集为训练和评估端到端文档理解模型提供了标准化基准。其核心应用场景在于处理包含复杂版面结构的文档图像，通过整合原始图像、带边界框的标注图像以及Markdown格式的文本内容，模型能够学习从视觉输入中精确提取并重构文本与图形元素。这一过程不仅模拟了真实世界文档的多样性，还为模型在版面分析、文本识别和多模态信息融合等任务上提供了丰富的训练样本。

解决学术问题

该数据集有效应对了文档分析研究中长期存在的挑战，如非结构化文档的自动化理解、图文混合内容的精准分离以及跨模态语义对齐。通过提供高质量的标注数据，它促进了基于深度学习的OCR系统在准确率和鲁棒性上的提升，尤其解决了传统方法在复杂版面、低质量图像或多语言文本处理中的局限性。其意义在于为学术界建立了一个可复现的实验平台，推动了文档智能领域向更高效、更通用的方向发展。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，包括基于Transformer的端到端文档理解模型、多任务学习框架以及自监督预训练方法。这些工作不仅优化了文档的文本检测与识别流程，还探索了视觉与语言特征的深度融合，为后续更复杂的文档问答、摘要生成等任务奠定了基础。相关成果已发表于CVPR、ICCV等顶级会议，持续推动着文档智能技术的前沿进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集