fimu-docproc-research/CIVQA-TesseractOCR
收藏Hugging Face2023-11-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fimu-docproc-research/CIVQA-TesseractOCR
下载链接
链接失效反馈官方服务:
资源简介:
捷克发票视觉问答数据集是使用Tesseract OCR技术创建的,适用于为选定模型添加标签。该数据集包含从公共来源获取的发票,并专注于15个关键实体,这些实体对于处理发票至关重要。数据集包括训练集和验证集,分别包含160,645和16,220个样本。数据集的结构包括id、words、answers、bboxes、answers_bboxes、questions和image等字段。
提供机构:
fimu-docproc-research
原始信息汇总
数据集概述
数据集名称
CIVQA TesseractOCR Dataset
数据集特征
- id: 字符串类型
- words: 字符串序列
- answers: 字符串类型
- bboxes: 浮点数序列
- answers_bboxes: 浮点数序列
- questions: 字符串类型
- image: 字符串类型
数据集划分
- 训练集: 160645个样本,占用1838637418字节
- 验证集: 16220个样本,占用177768370字节
数据集大小
- 下载大小: 6274981字节
- 数据集总大小: 2016405788字节
许可证
MIT
语言
- cs
标签
- finance



