TrainingDataPro/ocr-text-detection-in-the-documents

Name: TrainingDataPro/ocr-text-detection-in-the-documents
Creator: TrainingDataPro
Published: 2024-04-24 18:46:55
License: 暂无描述

Hugging Face2024-04-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TrainingDataPro/ocr-text-detection-in-the-documents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多种文档类型（如扫描文件、表格、发票和手写笔记）的图像集合，这些图像已通过边界框标注了文本位置，专门用于文本检测和识别任务。数据集中的图像来自多样化的来源，确保了文档样式和质量的代表性。每张图像都附有边界框标注，精确地标出了文档中文本的位置。此外，数据集还提供了XML标注文件，其中包含文本的边界框坐标和标签，支持光学字符识别、信息提取和文档理解等任务。

提供机构：

TrainingDataPro

原始信息汇总

数据集概述

数据集名称

OCR Text Detection in the Documents Object Detection dataset

数据集描述

该数据集包含一系列已标注文本位置的图像，专门为文档中的文本检测和识别任务设计，如扫描文件、表格、发票和手写笔记。数据集中的文档类型多样，包括不同的布局、字体大小和样式。每张图像都附有标注框，精确标出文档内文本的位置。

数据集内容

images：包含原始文档图像。
boxes：包含原始图像的边界框标注。
annotations.xml：包含边界框的坐标和标签，为原始图像创建。

数据格式

每张来自images文件夹的图像都伴随一个annotations.xml文件中的XML标注，指示文本检测的边界框坐标和标签。每个点的x和y坐标均被提供。

文本标签

"Text Title"：对应标题，框颜色为红色。
"Text Paragraph"：对应文本段落，框颜色为蓝色。
"Table"：对应表格，框颜色为绿色。
"Handwritten"：对应手写文本，框颜色为紫色。

数据集用途

该数据集支持文本提取、识别和分析算法的开发和测试，适用于光学字符识别(OCR)、信息提取和文档理解等应用。

许可协议

数据集遵循CC-BY-NC-ND-4.0许可协议。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集