Voxel51/scanned-images-dataset-for-ocr-and-vlm-finetuning

Name: Voxel51/scanned-images-dataset-for-ocr-and-vlm-finetuning
Creator: Voxel51
Published: 2026-02-05 18:46:43
License: 暂无描述

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/Voxel51/scanned-images-dataset-for-ocr-and-vlm-finetuning

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含3,482张扫描文档图像的数据集，涵盖10种不同的文档类别，专为OCR训练和视觉语言模型（VLM）微调设计。数据集包含真实世界的扫描文档，具有多样化的布局、扫描质量和文档类型。文档图像展示了真实世界的特征，包括不同的扫描质量、布局、混合内容类型（文本、表格、图像）以及打印和手写文本。数据集特别适用于训练OCR模型、微调视觉语言模型、开发文档分类系统以及测试对真实世界扫描伪影和质量变化的鲁棒性。

This is a [FiftyOne](https://github.com/voxel51/fiftyone) dataset containing **3,482 scanned document images** across 10 diverse document categories. Designed for OCR training and Vision-Language Model (VLM) fine-tuning, this dataset features real-world scanned documents with varied layouts, scanning quality, and document types. The images exhibit real-world characteristics including varied scanning quality, different layouts, mixed content types (text, tables, images), and both printed and handwritten text. The dataset is particularly valuable for training OCR models on diverse document layouts, fine-tuning Vision-Language Models for document understanding, developing document classification systems, and testing robustness to real-world scanning artifacts and quality variations.

提供机构：

Voxel51

5,000+

优质数据集

54 个

任务类型

进入经典数据集