abdoelsayed/CORU
收藏Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/abdoelsayed/CORU
下载链接
链接失效反馈官方服务:
资源简介:
CORU(Comprehensive Post-OCR Parsing and Receipt Understanding Dataset)是一个专门设计用于增强多语言环境下OCR和信息提取能力的数据集,特别是针对阿拉伯语和英语。该数据集包含超过20,000张来自埃及不同零售环境的收据,以及30,000张用于OCR的注释图像和10,000个用于详细信息提取的注释项目。这些注释捕捉了商家名称、商品描述、总价、收据编号和日期等关键信息。数据集支持三个主要计算任务:目标检测、OCR和信息提取。
CORU(Comprehensive Post-OCR Parsing and Receipt Understanding Dataset)是一个专门设计用于增强多语言环境下OCR和信息提取能力的数据集,特别是针对阿拉伯语和英语。该数据集包含超过20,000张来自埃及不同零售环境的收据,以及30,000张用于OCR的注释图像和10,000个用于详细信息提取的注释项目。这些注释捕捉了商家名称、商品描述、总价、收据编号和日期等关键信息。数据集支持三个主要计算任务:目标检测、OCR和信息提取。
提供机构:
abdoelsayed
原始信息汇总
CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset
数据集概述
主要任务
- Key Information Detection
- Large-Scale OCR Dataset
- Item Information Extraction
语言
- English
- Arabic
数据集大小
- 10K<n<100K
许可证
- MIT
数据集统计
| 类别 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| Object Detection | 12,600 | 3,700 | 3,700 |
| OCR | 21,000 | 4,500 | 4,500 |
| IE | 7,000 | 1,500 | 1,500 |
下载链接
Key Information Detection
OCR Dataset
Item Information Extraction
搜集汇总
数据集介绍

构建方式
CORU数据集的构建旨在推进光学字符识别(OCR)和自然语言处理(NLP)在多语言环境下的融合,特别是针对阿拉伯语等复杂脚本语言。该数据集汇聚了埃及多家零售店铺的20,000张发票,覆盖了超市、服装店等不同场景。数据集中包含了30,000张用于OCR的标注图像,以及10,000项详细信息的标注,涵盖了商家名称、物品描述、总价、发票号码和日期等关键信息。这些数据被精心设计以支持对象检测、OCR和信息提取三大任务,为自动化多语言文档处理的研究与开发提供了坚实基础。
特点
CORU数据集的显著特点在于其多语言和多任务的支持,特别是对于阿拉伯语和英语的融合处理。数据集的多样性体现在来源的广泛性、场景的差异性以及所包含信息的详尽性。此外,数据集通过结构化的标注方式,为对象检测、OCR和信息提取任务提供了高质量的训练和测试资源,有助于评估和提升现有模型在处理真实世界收据时的性能。
使用方法
使用CORU数据集时,用户可以根据不同的任务需求选择相应的数据子集。数据集分为关键信息检测、大规模OCR数据集和物品信息提取三个挑战,每个挑战都提供了训练集、验证集和测试集。用户可以通过提供的下载链接获取数据,并根据数据集的注释规范进行模型训练和评估。数据集的详细使用方法和模型基准性能可在相关论文中查阅,以便更好地理解和利用该数据集进行学术研究和应用开发。
背景与挑战
背景概述
在光学字符识别(OCR)和自然语言处理(NLP)领域,多语言能力的整合尤为关键,特别是在处理如阿拉伯语这样复杂脚本的语言时。CORU数据集,即全面后OCR解析与收据理解数据集,便是在此背景下应运而生。该数据集由Abdelrahman Abdallah等研究人员于2024年创建,旨在提升多语言环境中涉及阿拉伯语和英语的OCR和信息提取能力。CORU数据集包含了超过20,000张来自埃及不同零售环境的注解收据,以及30,000张用于OCR的注解图像,和10,000项详细信息提取的注解。这些注解涵盖了商家名称、物品描述、总价、收据号码和日期等关键细节,并结构化以支持对象检测、OCR和信息提取三大计算任务。该数据集为评估传统方法和先进神经网络方法的有效性提供了基准性能,对推进自动化的多语言文档处理状态具有重要意义。
当前挑战
CORU数据集面临的挑战主要体现在两个方面:一是领域问题的解决,即如何在高噪声、复杂布局的现实中提高收据的OCR和信息提取精度;二是构建过程中的挑战,包括多语言文本的识别、复杂脚本的处理以及大量数据的标注和质量控制。此外,数据集还需解决如何有效平衡训练集、验证集和测试集的分布,以及如何建立适用于不同文化和地理背景的泛化模型。
常用场景
经典使用场景
在光学字符识别(OCR)与自然语言处理(NLP)领域,CORU数据集被广泛应用于提升多语言环境下的 receipt 文本解析和信息提取能力。该数据集特别针对包含阿拉伯文这种复杂脚本的语言,通过训练对象检测、OCR以及信息提取等任务,为研究者提供了一个全面的多语言 receipt 处理平台。
实际应用
在实际应用中,CORU数据集为零售业、财务审计、文档管理等领域提供了强大的技术支持,使得自动化处理 receipt 成为可能,极大地提高了工作效率和数据处理精度。
衍生相关工作
基于CORU数据集,学术界和产业界已衍生出一系列相关研究,包括但不限于多语言OCR技术的改进、 receipt 文本解析算法的优化以及信息提取领域的拓展,进一步推动了文档处理技术的进步。
以上内容由遇见数据集搜集并总结生成



