fimu-docproc-research/CIVQA_EasyOCR_Train

Name: fimu-docproc-research/CIVQA_EasyOCR_Train
Creator: fimu-docproc-research
Published: 2023-11-21 20:47:38
License: 暂无描述

Hugging Face2023-11-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fimu-docproc-research/CIVQA_EasyOCR_Train

下载链接

链接失效反馈

官方服务：

资源简介：

CIVQA（捷克发票视觉问答）数据集是使用EasyOCR创建的，仅包含训练集部分。数据集中包含的发票来自公开来源，重点关注了15个对处理发票至关重要的实体，包括发票号码、变量符号、特定符号、常数符号、银行代码、账号、ICO、总金额、发票日期、到期日期、供应商名称、IBAN、DIC、二维码和供应商地址。数据集的语言为捷克语，标签为金融，许可证为MIT。如果用户发现自己的信息被包含在数据集中并希望将其从研究用途中删除，可以通过提供的链接提交请求。

提供机构：

fimu-docproc-research

原始信息汇总

CIVQA EasyOCR Train Dataset

数据集信息

特征

id: 字符串类型
words: 字符串序列
answers: 字符串类型
bboxes: 浮点数序列的序列
answers_bboxes: 浮点数序列的序列
questions: 字符串类型
image: 字符串类型

数据分割

train: 包含143765个样本，占用963207990字节

下载和数据集大小

下载大小: 41076905字节
数据集大小: 963207990字节

许可证

MIT许可证

语言

捷克语

数据集描述

该数据集由EasyOCR创建，包含捷克语发票的视觉问答数据。
数据集仅包含训练部分。
数据集中的发票来自公共来源，重点关注15个关键实体。
如果数据集中包含您的可识别信息，并希望移除，请通过指定链接联系。

5,000+

优质数据集

54 个

任务类型

进入经典数据集