fimu-docproc-research/CIVQA-TesseractOCR

Name: fimu-docproc-research/CIVQA-TesseractOCR
Creator: fimu-docproc-research
Published: 2023-11-21 20:47:03
License: 暂无描述

Hugging Face2023-11-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fimu-docproc-research/CIVQA-TesseractOCR

下载链接

链接失效反馈

官方服务：

资源简介：

捷克发票视觉问答数据集是使用Tesseract OCR技术创建的，适用于为选定模型添加标签。该数据集包含从公共来源获取的发票，并专注于15个关键实体，这些实体对于处理发票至关重要。数据集包括训练集和验证集，分别包含160,645和16,220个样本。数据集的结构包括id、words、answers、bboxes、answers_bboxes、questions和image等字段。

提供机构：

fimu-docproc-research

原始信息汇总

数据集概述

数据集名称

CIVQA TesseractOCR Dataset

数据集特征

id: 字符串类型
words: 字符串序列
answers: 字符串类型
bboxes: 浮点数序列
answers_bboxes: 浮点数序列
questions: 字符串类型
image: 字符串类型

数据集划分

训练集: 160645个样本，占用1838637418字节
验证集: 16220个样本，占用177768370字节

数据集大小

下载大小: 6274981字节
数据集总大小: 2016405788字节

许可证

MIT