consolidated_receipt_dataset

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/Voxel51/consolidated_receipt_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CORD (Consolidated Receipt Dataset) 是一个大规模的数据集，专门为后OCR解析任务设计，专注于收据理解。数据集包含来自商店和餐厅的11,000多张印度尼西亚收据图像，具有OCR注释（边界框和文本）和多级语义标签。数据集在FiftyOne平台上提供了可访问的接口，用于探索800个注释收据图像的训练分割。数据集旨在弥合OCR和NLP任务之间的差距，通过提供视觉和语义注释，使其适合端到端文档智能系统。每个收据都包含30个语义类别的详细注释，这些类别组织成5个超级类别（菜单、无效菜单、小计、无效总计和总计），以及包括行分组、感兴趣区域和键值对标志的元数据。

创建时间：

2025-10-18

原始信息汇总

Consolidated Receipt Dataset (CORD) 数据集概述

基本信息

数据集名称: Consolidated Receipt Dataset (CORD)
数据集标识: cord-v1-train
语言: 英语 (en)
样本数量: 800个
许可证: CC-BY-4.0 (知识共享署名4.0国际许可证)

任务类型

目标检测
视觉问答
视觉文档检索

数据集描述

CORD是一个大规模数据集，专门用于OCR后解析任务，重点关注收据理解。该数据集包含从商店和餐厅收集的11,000多张印尼收据，具有OCR注释（边界框和文本）和用于解析的多级语义标签。

数据集结构

样本级字段

filepath: 收据图像保存路径（PNG格式，平均尺寸864×1296像素）
image_id: 每个收据的唯一标识符（训练分割为0-799）
width: 图像宽度（像素）
height: 图像高度（像素）
num_items: 收据上的菜单项数量（整数，通常1-30）
subtotal_price: 税前/服务费前的小计金额（带逗号分隔符的字符串）
service_price: 服务费金额（字符串，可为None）
tax_price: 税额（字符串，可为None）
etc: 额外费用或舍入调整（字符串，可为None或负数）
total_price: 最终总价（带逗号分隔符的字符串）

检测字段

每个样本包含一个Detections对象，具有以下属性：

label: 30个类别中的语义类别
bounding_box: 归一化坐标[x, y, width, height]，范围[0, 1]
text: 该边界框的OCR文本内容
is_key: 布尔标志，指示文本是否为键（True）或值（False）
group_id: 将相关文本元素链接在一起的整数

语义类别（30个类别）

菜单项（14个子类）: menu.nm, menu.cnt, menu.unitprice, menu.price等
作废菜单（2个子类）: void_menu.nm, void_menu.price
小计（6个子类）: subtotal.subtotal_price, subtotal.service_price等
总计（8个子类）: total.total_price, total.cashprice等

数据分割

训练集: 800个样本（此FiftyOne数据集中实现）
开发集: 100个样本（原始数据集中可用）
测试集: 100个样本（原始数据集中可用）

使用场景

直接用途

文档理解研究
OCR后处理
键值提取
视觉文档分析
多模态学习
基准评估

超出范围用途

实时生产OCR
多语言收据解析
隐私敏感应用
商业交易分析
通用文档理解

数据集来源

策划方: NAVER CLOVA AI Research
资助方: NAVER Corporation
共享方: NAVER CLOVA AI via Hugging Face Datasets
NLP语言: 印尼语 (id)

相关资源

代码库: https://github.com/clovaai/cord
Hugging Face: https://huggingface.co/datasets/naver-clova-ix/cord-v1
CORD v2: https://huggingface.co/datasets/naver-clova-ix/cord-v2

搜集汇总

数据集介绍

构建方式

在文档智能研究领域，CORD数据集的构建体现了多阶段精细化标注流程。该数据集源自印度尼西亚零售场景中收集的11,000余张真实收据，通过NAVER CLOVA研究团队的系统化处理，首先完成收据图像的采集与OCR标注，随后进行语义标签分配，涵盖30个细粒度类别并划分为5个语义超类。标注过程中采用四边形边界框精准捕捉文本方位，同时建立层次化关联机制，通过行标识符与组标识符构建文本元素间的语义联系，最终形成包含视觉特征与语义解析的完整标注体系。

特点

该数据集的核心特征在于其多模态融合的标注架构，每张收据图像不仅包含文本检测框与转录内容，还具备完整的语义解析标签。数据样本呈现丰富的层次化结构，通过组标识符实现菜单项、价格等元素的语义关联，并标注关键值对标志以区分文本功能。收据图像平均分辨率为864×1296像素，涵盖商品名称、数量、单价、小计、服务费、税费及总价等完整交易要素，其中价格字段采用印尼本地化的千位分隔符格式，真实反映了商业场景中的数据多样性。

使用方法

研究者可通过FiftyOne平台快速加载该数据集，使用标准接口导入800个训练样本后，即可启动交互式可视化界面探索数据分布。在具体应用层面，该数据集支持端到端的文档理解任务，包括基于边界框的文本检测、语义类别预测、关键信息抽取等计算机视觉与自然语言处理融合任务。用户可通过调整最大样本数等参数灵活控制数据规模，并利用数据集中预定义的组标识符开发层次化解析模型，为收据结构化理解研究提供标准化实验基准。

背景与挑战

背景概述

在文档智能研究领域，收据解析作为连接光学字符识别与自然语言处理的关键任务，长期面临结构化信息提取的挑战。CORD数据集由NAVER CLOVA AI研究院于2019年创建，核心研究团队包括Park Seunghyun等学者，旨在解决传统OCR系统与语义解析模块之间的割裂问题。该数据集收录了11,000余张印度尼西亚零售收据，通过五层语义分类体系与30个细粒度标签，构建了首个专注于后OCR解析的大规模基准数据集。其创新性体现在将视觉定位框与多层次语义标注相结合，为端到端文档理解系统提供了重要实验基础，显著推动了视觉-语言多模态学习在商业场景中的应用。

当前挑战

该数据集主要应对收据文档中复杂布局解析与关键信息抽取的双重挑战。在领域问题层面，需解决收据文本的旋转扭曲、多层级语义关联以及键值对动态组合等难题；构建过程中面临标注一致性维护的困难，包括四边形边界框的精确标定、30类语义标签的交叉验证，以及印度尼西亚隐私法规要求下的敏感信息过滤。数据集的区域性特征也带来泛化性局限，仅包含单一语言文本与特定商业场景，对跨语言迁移与多领域适应提出更高要求。

常用场景

经典使用场景

在文档智能研究领域，CORD数据集作为收据解析的基准工具，主要应用于端到端的视觉文档理解任务。该数据集通过结合OCR输出与多层级语义标注，为研究者提供了验证信息抽取模型的标准化平台。其800张带边界框标注的收据图像，常被用于训练视觉语言模型对商品名称、数量、单价等关键字段的联合识别能力，尤其在处理印尼语收据的复杂版面布局时展现出独特价值。

衍生相关工作

基于该数据集衍生的经典工作包括Donut等OCR无关的文档理解模型，其通过端到端训练方式在CORD上实现了先进性能。NAVER团队提出的BIO标记解析器将收据解析转化为序列标注任务，开创了轻量化后处理方案的新范式。后续研究进一步探索了图神经网络在收据结构理解中的应用，推动了多模态文档分析技术从平面识别向立体认知的跨越。

数据集最近研究