five

siamta/sroie-2019-v2

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/siamta/sroie-2019-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction,包含扫描收据的OCR和信息提取任务。数据集经过处理,去除了重复的图像和注释。数据集包含图像和对象特征,对象特征包括边界框、文本和实体(如公司名称、日期、地址和总金额等)。数据集分为训练集和测试集,训练集有626个示例,测试集有347个示例。

数据集信息: 特征: - 名称:图像(image) 数据类型:图像 - 名称:目标对象(objects),结构体包含以下字段: - 边界框(bbox):三级64位整数序列 - 文本(text):字符串序列 - 实体(entities),结构体包含以下字段: - 公司(company):字符串类型 - 日期(date):字符串类型 - 地址(address):字符串类型 - 总金额(total):字符串类型 数据集划分: - 名称:训练集(train) 字节数:357970471.0 样本数量:626 - 名称:测试集(test) 字节数:207508258.0 样本数量:347 下载总大小:501626251 数据集总存储大小:565478729.0 配置项: - 配置名称:默认(default) 数据文件: - 划分:训练集(train),路径:data/train-* - 划分:测试集(test),路径:data/test-* --- ICDAR 2019 扫描收据光学字符识别(Optical Character Recognition, OCR)与信息提取鲁棒阅读挑战赛 本数据集源自网址 https://rrc.cvc.uab.es/?ch=13&com=downloads。据核查,重复图像与标注已由项目 https://github.com/Losyash/SROIE-datasetv2 完成去重处理。 --- 许可证:CC BY 2.0
提供机构:
siamta
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作