siamta/sroie-2019-v2
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/siamta/sroie-2019-v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction,包含扫描收据的OCR和信息提取任务。数据集经过处理,去除了重复的图像和注释。数据集包含图像和对象特征,对象特征包括边界框、文本和实体(如公司名称、日期、地址和总金额等)。数据集分为训练集和测试集,训练集有626个示例,测试集有347个示例。
数据集信息:
特征:
- 名称:图像(image)
数据类型:图像
- 名称:目标对象(objects),结构体包含以下字段:
- 边界框(bbox):三级64位整数序列
- 文本(text):字符串序列
- 实体(entities),结构体包含以下字段:
- 公司(company):字符串类型
- 日期(date):字符串类型
- 地址(address):字符串类型
- 总金额(total):字符串类型
数据集划分:
- 名称:训练集(train)
字节数:357970471.0
样本数量:626
- 名称:测试集(test)
字节数:207508258.0
样本数量:347
下载总大小:501626251
数据集总存储大小:565478729.0
配置项:
- 配置名称:默认(default)
数据文件:
- 划分:训练集(train),路径:data/train-*
- 划分:测试集(test),路径:data/test-*
---
ICDAR 2019 扫描收据光学字符识别(Optical Character Recognition, OCR)与信息提取鲁棒阅读挑战赛
本数据集源自网址 https://rrc.cvc.uab.es/?ch=13&com=downloads。据核查,重复图像与标注已由项目 https://github.com/Losyash/SROIE-datasetv2 完成去重处理。
---
许可证:CC BY 2.0
提供机构:
siamta



