KORIE
收藏github2026-01-09 更新2026-01-13 收录
下载链接:
https://github.com/MahmoudSalah/KORIE
下载链接
链接失效反馈官方服务:
资源简介:
KORIE是一个不断扩展的韩国零售收据基准数据集,用于文本检测、光学字符识别(OCR)和信息提取(IE)的研究。数据集包含扫描和移动设备捕获的热敏收据,展示了真实世界的退化现象,如褪色、条纹、模糊、倾斜、眩光和物理折痕。KORIE包括边界框、OCR转录和结构化项目级字段的细粒度注释。
KORIE is an ever-expanding benchmark dataset for Korean retail receipts, designed for research in text detection, optical character recognition (OCR), and information extraction (IE). The dataset comprises thermal receipts acquired via scanning and mobile capture, which exhibit real-world degradations including fading, streaking, blurriness, skewing, glare, and physical creases. KORIE includes fine-grained annotations covering bounding boxes, OCR transcriptions, and structured item-level fields.
创建时间:
2025-12-24
原始信息汇总
KORIE 数据集概述
数据集简介
KORIE 是一个不断扩展的韩国零售收据基准数据集,专为以下研究方向设计:
- 文本检测
- 光学字符识别
- 信息提取
该数据集包含扫描和移动设备拍摄的热敏收据,呈现了真实世界的退化现象,如褪色、条带、模糊、倾斜、眩光和物理折痕。KORIE 提供了用于边界框、OCR 转录和结构化项目级字段的细粒度标注。
关键特性
- 扩展的真实世界数据集:初始版本包含 774 张收据;包含平板扫描和移动拍摄的收据;移动图像引入了真实的野外伪影(透视畸变、阴影、眩光、运动模糊);数据集将持续扩展,增加更多商店、成像条件和地理多样性。
- 多任务基准:支持三个研究轨道:
- 文本检测
- OCR
- 信息提取
数据集统计(v1.0)
- 收据数量:774
- 单词级 OCR 裁剪数量:17,587
- 结构化 IE 标注数量:2,886
- 丰富字段包括:
- 商户名称、日期、时间、收据编号
- 商品名称、品牌、类别
- 数量、单位、单价、行总计
- 小计、税款和总金额
基线结果
检测
| 模型 | mAP@0.50 | mAP@0.50:0.95 |
|---|---|---|
| YOLOv11 | 0.888 | 0.762 |
| YOLOv10 | 0.860 | 0.751 |
| YOLOv9 | 0.856 | 0.747 |
OCR
| 模型 | CER (%) | WER (%) |
|---|---|---|
| PaddleOCR | 15.84 | 26.73 |
| EasyOCR | 17.36 | 31.43 |
| Tesseract | 25.43 | 35.26 |
信息提取(零样本 LLMs)
- 最佳模型:Qwen2.5-3B-Instruct
- 整体准确率:23.16%
- 整体 F1 分数:25%
信息提取任务因韩语文本的噪声 OCR、热敏伪影和领域不匹配而具有挑战性。
信息提取实体架构
配置文件定义了收据信息提取任务的实体架构,用于将提取的标注映射到预定义的实体集: "Description, Quantity, TotalPrice, Price, Item, MerchantName, Total, Subtotal, TotalTax, TransactionDate, TransactionTime, Tip, MerchantPhoneNumber, ReceiptNumber, MerchantAddress, Item_barcode, ProductCode."
数据下载
关键信息检测
| 数据分割 | 大小 | 下载链接 |
|---|---|---|
| 训练集 | ~1 GB | https://drive.google.com/file/d/1M3C_xG8Vg47DIbPP2fYpXs6mv5t6YOVq/view?usp=sharing |
| 验证集 | ~346 MB | https://drive.google.com/file/d/15wXqZUzWaYEJu-rWZwCPuMvHFMZgWQOD/view?usp=sharing |
| 测试集 | ~332 MB | https://drive.google.com/file/d/1UJZIcTX38FnMa8PZHYj--5OJ8-deSMRI/view?usp=sharing |
OCR 数据集
| 数据分割 | 大小 | 下载链接 |
|---|---|---|
| 训练集 | ~58.4 MB | https://drive.google.com/file/d/1I4BzOqKgF7zbNPlNeood4f7g8pi2xh26/view?usp=sharing |
| 验证集 | ~19.1 MB | https://drive.google.com/file/d/1v_0iGpBjB5WdWOeKI4C903eeqkRBjTsM/view?usp=sharing |
| 测试集 | ~18.6 MB | https://drive.google.com/file/d/1GtEzSUA2wTNfOujO67-JEZ_PLpJOdBhg/view?usp=sharing |
项目信息提取
| 数据分割 | 下载链接 |
|---|---|
| 训练集 | https://drive.google.com/file/d/1W6XYnRtsQ2E8UZlo-MGwxQ0SkByTsdQV/view?usp=sharing |
| 验证集 | https://drive.google.com/file/d/1ff3z44tfhkeba-CvKv7fQp7EliFQ8EGu/view?usp=sharing |
| 测试集 | https://drive.google.com/file/d/107ckPQ59gda7172Ls_iiEg5JomWhLtVA/view?usp=sharing |
样本与格式
Samples/ 目录中提供了两个样本图像/标签对,以演示数据集格式。
联系信息
如有问题、合作或数据集贡献,请联系: Mahmoud SalahEldin Kasem 邮箱:mahmoud.salah@aun.edu.eg
搜集汇总
数据集介绍

构建方式
在零售收据信息提取领域,KORIE数据集的构建体现了对现实场景复杂性的深刻把握。该数据集通过采集774张韩国零售收据图像,融合了平板扫描与移动设备拍摄两种方式,以捕捉真实环境中的退化现象,如褪色、条带噪声、模糊、倾斜、眩光及物理折痕。每张图像均经过精细标注,涵盖文本检测边界框、OCR转录文本以及结构化的项目级字段,为多任务研究奠定了坚实基础。
特点
KORIE数据集的特点在于其多任务基准支持与真实世界多样性。它不仅提供文本检测、光学字符识别和信息提取三个研究轨道,还包含了丰富的标注字段,如商户名称、交易日期、项目明细及价格信息。数据集中的移动捕获图像引入了视角畸变、阴影和运动模糊等自然伪影,增强了模型的鲁棒性评估能力。其持续扩展计划将进一步涵盖更多商店、成像条件和地理多样性,推动领域进展。
使用方法
使用KORIE数据集时,研究者可依据不同任务下载对应的数据分割。数据集提供了训练、验证和测试集,分别用于模型训练、调优和评估。对于文本检测,可利用YOLO系列或DINO-DETR等基线模型;OCR任务则支持Tesseract、EasyOCR和PaddleOCR等工具;信息提取任务可通过零样本大型语言模型如Llama-3.x和Qwen-2.5进行结构化输出生成。配置文件中定义的实体模式指导数据加载与训练流程,确保提取结果与预定字段映射一致。
背景与挑战
背景概述
在文档图像分析与信息抽取领域,针对韩文零售收据的研究长期面临公开数据稀缺的挑战。KORIE数据集应运而生,作为一个持续扩展的基准数据集,专注于韩文收据的文本检测、光学字符识别及结构化信息抽取任务。该数据集由研究人员Mahmoud SalahEldin Kasem等人构建,初始版本发布于近期,收录了774张真实场景下的热敏收据图像,涵盖平板扫描与移动设备拍摄两种采集方式,旨在模拟褪色、条带噪声、模糊、倾斜、眩光及物理折痕等多种现实退化现象。通过提供细粒度的边界框标注、OCR转录文本以及商品层级的结构化字段,KORIE为推进多模态韩文文档理解技术提供了关键资源,对零售自动化、金融科技等应用领域具有显著影响力。
当前挑战
KORIE数据集所针对的领域核心挑战在于韩文收据的复杂信息抽取。收据文本常受热敏退化、拍摄畸变及背景干扰影响,导致OCR准确率下降,进而影响后续结构化解析。当前基线结果显示,即使在最佳模型下,信息抽取的整体F1分数仅为25%,凸显了在噪声文本、领域适配及韩文特有字符处理上的困难。在构建过程中,团队需克服真实场景数据采集的多样性挑战,包括协调不同商户、处理移动捕获引入的透视变形与运动模糊,以及为数千个商品条目进行精细的结构化标注,这些工作均需大量人工校验以确保数据质量与一致性。
常用场景
经典使用场景
在文档图像分析与理解领域,KORIE数据集作为韩文零售收据的基准资源,其经典使用场景聚焦于多任务协同研究。该数据集通过提供包含真实世界退化特征的扫描与移动拍摄图像,支持文本检测、光学字符识别和信息提取三个核心任务的联合评估与优化。研究者常利用其细粒度标注,如边界框、OCR转录和结构化字段,来开发端到端的收据处理系统,从而在复杂成像条件下提升韩文文本的识别与理解精度。
衍生相关工作
围绕KORIE数据集,已衍生出一系列经典研究工作,包括基于YOLO系列和DINO-DETR的文本检测模型优化、针对韩文特性的OCR引擎如PaddleOCR与EasyOCR的适应性改进,以及利用Llama-3.x和Qwen-2.5等大型语言模型的零样本信息提取方法。这些工作不仅提升了收据分析的准确率,还推动了弱监督学习与跨领域迁移在文档理解中的应用,为后续多语言收据数据集的建设提供了技术范式与评估标准。
数据集最近研究
最新研究方向
在文档智能领域,KORIE数据集作为韩文零售收据的基准资源,正推动多模态信息处理的前沿探索。其最新研究聚焦于融合文本检测、光学字符识别与信息提取的端到端系统优化,尤其关注热敏收据在真实退化场景下的鲁棒性提升。当前热点涉及利用YOLO系列及DINO-DETR等先进检测模型增强文本定位精度,同时结合PaddleOCR与注意力机制网络应对韩文OCR的独特挑战。信息提取方面,零样本大语言模型如Qwen2.5的应用成为焦点,旨在克服热敏伪影与领域差异导致的语义解析瓶颈。这些进展不仅助力韩国本土零售自动化,也为多语言文档理解提供了跨文化技术验证,具有显著的产业与学术双重意义。
以上内容由遇见数据集搜集并总结生成



