amaye15/invoices-google-ocr
收藏Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/amaye15/invoices-google-ocr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含图像和标签信息,图像以像素值形式存储,标签分为五种类别:条形码、发票、物体、收据和非物体。此外,数据集还包含OCR信息,包括文本及其边界框的坐标。数据集分为训练集和测试集,训练集包含13463个样本,测试集包含3366个样本。
该数据集包含图像和标签信息,图像以像素值形式存储,标签分为五种类别:条形码、发票、物体、收据和非物体。此外,数据集还包含OCR信息,包括文本及其边界框的坐标。数据集分为训练集和测试集,训练集包含13463个样本,测试集包含3366个样本。
提供机构:
amaye15
原始信息汇总
数据集概述
数据集特征
- pixel_values: 图像数据类型。
- label: 类别标签,包含以下类别:
- 0: Barcode
- 1: Invoice
- 2: Object
- 3: Receipt
- 4: Non-Object
- ocr: 包含以下子特征:
- bounding box: 结构化数据,包含四个顶点,每个顶点有x和y坐标,数据类型为int64。
- text: 字符串数据类型。
数据集分割
- train: 包含13463个样本,占用2571554712.125字节。
- test: 包含3366个样本,占用649760726.25字节。
数据集大小
- 下载大小: 3078498054字节
- 数据集总大小: 3221315438.375字节
数据文件配置
- default 配置:
- train: 数据路径为
data/train-* - test: 数据路径为
data/test-*
- train: 数据路径为



