my-ocr-output
收藏Hugging Face2025-08-11 更新2025-08-12 收录
下载链接:
https://huggingface.co/datasets/phuongkhanh123/my-ocr-output
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了使用Nanonets-OCR-s模型处理的内容,以markdown格式保存的OCR结果。数据集来源于/content/input目录下的图像文件,并且详细记录了处理过程中的配置信息、模型信息以及数据集结构。这个数据集特别适用于OCR相关的任务,能够处理数学公式、表格、文档结构、图像、表单、水印和页码等元素。
创建时间:
2025-08-10
原始信息汇总
数据集概述
基本信息
- 数据集名称: Document OCR using Nanonets-OCR-s
- 标签: ocr, document-processing, nanonets, markdown, uv-script, generated
- 样本数量: 32
- 处理日期: 2025-08-11 18:22 UTC
- 处理时间: 8.0分钟
处理详情
- 源数据集: /content/input
- 模型: nanonets/Nanonets-OCR-s
- 配置:
- 图像列:
image - 输出列:
markdown - 数据集分割:
train - 批量大小: 32
- 最大模型长度: 8,192 tokens
- 最大输出 tokens: 4,096
- GPU 内存利用率: 80.0%
- 图像列:
模型信息
Nanonets-OCR-s 是一个先进的文档 OCR 模型,擅长处理以下内容:
- LaTeX 方程(数学公式以 LaTeX 格式保留)
- 表格(提取并格式化为 HTML)
- 文档结构(标题、列表和格式保留)
- 图像(包含在
<img>标签中的标题和描述) - 表单(复选框渲染为 ☐/☑)
- 水印(包裹在
<watermark>标签中) - 页码(包裹在
<page_number>标签中)
数据集结构
包含所有原始列,以及:
markdown: 以 markdown 格式提取的文本,保留结构inference_info: JSON 列表,跟踪应用于此数据集的所有 OCR 模型
使用方法
python from datasets import load_dataset import json
加载数据集
dataset = load_dataset("{output_dataset_id}", split="train")
访问 markdown 文本
for example in dataset: print(example["markdown"]) break
查看应用于此数据集的所有 OCR 模型
inference_info = json.loads(dataset[0]["inference_info"]) for info in inference_info: print(f"Column: {info[column_name]} - Model: {info[model_id]}")
生成方法
使用 uv-scripts/ocr Nanonets OCR 脚本生成: bash uv run https://huggingface.co/datasets/uv-scripts/ocr/raw/main/nanonets-ocr.py /content/input <output-dataset> --image-column image --batch-size 32 --max-model-len 8192 --max-tokens 4096 --gpu-memory-utilization 0.8
性能
- 处理速度: ~0.1 图像/秒
- GPU 配置: vLLM,GPU 内存利用率为 80%
搜集汇总
数据集介绍

构建方式
在文档光学字符识别(OCR)领域,my-ocr-output数据集通过先进的Nanonets-OCR-s模型构建而成。该数据集源自/content/input中的图像数据,采用批量处理方式,每批次处理32个样本,充分利用80%的GPU内存资源。处理过程中,模型最大长度设置为8,192个标记,输出限制在4,096个标记以内,确保了高效且精确的文本提取。所有处理步骤均通过uv-scripts/ocr脚本自动化完成,保证了数据处理的一致性和可重复性。
特点
该数据集以其丰富的结构化输出著称,不仅包含基础的文本提取功能,还能精准保留原始文档的复杂元素。通过markdown格式呈现的OCR结果,完整保留了LaTeX数学公式、HTML表格、文档标题结构以及图像描述等关键信息。独特的标签系统能够识别水印、页码等特殊元素,而inference_info列则详细记录了所有应用的OCR模型信息,为后续分析提供了完整的元数据支持。
使用方法
研究人员可通过Hugging Face的datasets库轻松加载该数据集,直接访问markdown列即可获取结构化OCR结果。数据集中的inference_info以JSON格式存储,方便用户追溯处理历史。典型应用场景包括文档数字化处理、多模态学习以及OCR模型性能评估。通过Python脚本可快速实现数据遍历和模型信息提取,为自然语言处理和计算机视觉的交叉研究提供了便利的实验数据。
背景与挑战
背景概述
在数字化时代,光学字符识别(OCR)技术已成为文档处理和信息提取的核心工具。my-ocr-output数据集由Nanonets团队于2025年8月创建,旨在通过先进的Nanonets-OCR-s模型,将图像中的文本内容转换为结构化的Markdown格式。该数据集包含32个样本,涵盖了数学公式、表格、文档结构等多种复杂元素,为文档自动化处理领域提供了高质量的训练和测试资源。其核心研究问题在于如何准确识别并保留文档中的多样化内容及其结构,从而推动OCR技术在学术研究、企业文档管理等场景中的应用。
当前挑战
my-ocr-output数据集在解决文档OCR问题时面临多重挑战。首先,复杂文档中的数学公式、表格和多级标题等元素的识别与格式保留需要模型具备极高的精度和鲁棒性。其次,构建过程中,处理大规模图像数据时需平衡GPU内存利用率与处理速度,确保在有限资源下高效完成OCR任务。此外,水印、页码等非主体内容的识别与标记也对模型的泛化能力提出了更高要求。这些挑战不仅考验了Nanonets-OCR-s模型的性能,也为后续OCR技术的优化提供了明确方向。
常用场景
经典使用场景
在文档数字化和信息提取领域,my-ocr-output数据集以其高质量的OCR处理结果成为研究者的重要工具。该数据集通过Nanonets-OCR-s模型对图像文档进行精确识别,保留了LaTeX公式、表格结构、文档格式等复杂元素,特别适用于需要高保真文本转换的学术研究和技术开发。
实际应用
在实际应用中,my-ocr-output数据集可广泛应用于金融票据处理、学术文献数字化、法律文件解析等场景。其保留原始文档结构的能力特别适合需要精确还原文档内容的行业应用,如档案管理系统的智能化升级、教育资源的数字化转换等具体业务需求。
衍生相关工作
基于该数据集的技术特点,衍生出了多个文档理解领域的创新研究。其中包括结合NLP技术的智能文档分析系统、面向特定领域的结构化信息提取算法,以及基于OCR结果的自动化知识图谱构建方法,这些工作都在不同程度上扩展了原始数据集的应用价值。
以上内容由遇见数据集搜集并总结生成



