jp1924/OCRDataPublic
收藏Hugging Face2024-04-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/OCRDataPublic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含图像、元数据和对象信息。元数据包括对象识别、文本语言、类别、标识符、标签路径、名称、源路径、类型、采集位置、数据捕获时间、DPI、组、高度、宽度、书写风格和年份等信息。对象信息包括ID、文本、边界框和元数据。数据集分为训练集和验证集,训练集包含489681个样本,验证集包含64228个样本。数据集的下载大小为169521319476字节,总大小为192946430914.375字节。
该数据集包含图像、元数据和对象信息。元数据包括对象识别、文本语言、类别、标识符、标签路径、名称、源路径、类型、采集位置、数据捕获时间、DPI、组、高度、宽度、书写风格和年份等信息。对象信息包括ID、文本、边界框和元数据。数据集分为训练集和验证集,训练集包含489681个样本,验证集包含64228个样本。数据集的下载大小为169521319476字节,总大小为192946430914.375字节。
提供机构:
jp1924
原始信息汇总
数据集概述
数据集特征
-
image
- 数据类型: image
-
meta_data
- 结构:
- object_recognition: int32
- text_language: int32
- category: int32
- identifier: string
- label_path: string
- name: string
- src_path: string
- type: string
- acquisition_location: int32
- data_captured: string
- dpi: int32
- group: int32
- height: int32
- width: int32
- writing_style: int32
- year: int32
- 结构:
-
objects
- 列表:
- id: int32
- text: string
- bbox: list: int32
- meta
- 结构:
- type: string
- text_type: string
- 结构:
- 列表:
数据集分割
-
train
- 数据量: 170820667389.875 字节
- 示例数量: 489681
-
validation
- 数据量: 22125763524.5 字节
- 示例数量: 64228
数据集大小
- 下载大小: 169521319476 字节
- 数据集总大小: 192946430914.375 字节
配置文件
- default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- 数据文件路径:



