Products for OCR and Information Extraction (POIE)

Name: Products for OCR and Information Extraction (POIE)
Creator: 华中科技大学
Published: 2023-06-15 11:31:12
License: 暂无描述

arXiv2023-06-15 更新2024-06-21 收录

下载链接：

https://github.com/jfkuang/CFAM

下载链接

链接失效反馈

官方服务：

资源简介：

POIE数据集是由华中科技大学和腾讯优图实验室合作创建的大型视觉信息提取数据集，包含3000张来自实际产品的营养成分标签的相机图像。该数据集不仅在布局、背景和字体上具有较大的变化，还包含了多达21种实体类型，其中一些实体有多种形式。POIE旨在解决真实世界中视觉信息提取的挑战，特别是在复杂布局和多变实体类型的情况下。数据集的创建过程涉及从产品图像中裁剪营养表，使用多个商业OCR引擎进行预标记，并通过人工校验和修复OCR错误。POIE的应用领域包括自动从视觉丰富的文档图像中提取结构化信息，如理解收据、商品和交通标志等。

The POIE dataset is a large-scale visual information extraction dataset jointly created by Huazhong University of Science and Technology and Tencent YouTu Lab. It contains 3000 camera-captured images of nutrition facts labels from real-world products. This dataset exhibits significant variations in layout, background, and font styles, and covers up to 21 entity types, some of which have multiple forms. POIE aims to address the challenges of visual information extraction in real-world scenarios, particularly those with complex layouts and diverse entity types. The dataset creation process involves cropping nutrition facts tables from product images, performing pre-labeling with multiple commercial OCR engines, and conducting manual verification and correction of OCR errors. Application fields of POIE include automated structured information extraction from visually-rich document images, such as interpreting receipts, commodities, traffic signs, and other similar contents.

提供机构：

华中科技大学

创建时间：

2023-05-12

搜集汇总

数据集介绍

构建方式

在视觉信息提取领域，POIE数据集的构建体现了对现实场景复杂性的高度模拟。该数据集源自真实世界商品的摄像头图像，聚焦于营养成分标签。构建过程中，研究团队首先从产品图像中裁剪出营养表格，并采用多个商业OCR引擎进行预标注。随后，经验丰富的标注人员利用LabelMe工具，手动校验每个文本框的位置与转录文本，同时修正OCR错误，并标注所有文本的实体值。经过剔除低质量和模糊图像，最终获得了包含3,000张图像和111,155个文本实例的高质量数据集。

特点

POIE数据集以其规模与挑战性在视觉信息提取领域独树一帜。作为目前最大的端到端VIE数据集，它包含了来自真实商品营养成分标签的摄像头图像，在布局多样性、背景干扰和实体类型方面均超越了现有基准。图像呈现出结构化、半结构化和非结构化等多种风格，并普遍存在折叠、弯曲、形变及透视等复杂畸变。尤为突出的是，数据集涵盖了多达21种实体类型，且部分实体以多种形式呈现，这极大地模拟了现实应用中的复杂性，对模型的鲁棒性与泛化能力提出了更高要求。

使用方法

POIE数据集为评估端到端视觉信息提取算法提供了严谨的基准。数据集被划分为2,250张训练图像和750张测试图像，确保了模型训练与评估的有效性。评估协议遵循领域内通用标准，采用检测、识别和信息提取三个任务的F1分数作为综合性能指标。研究者可利用该数据集训练或测试统一框架下的VIE模型，特别是那些旨在弥合OCR与信息提取任务间语义鸿沟的先进方法。通过在该数据集上的性能表现，能够更真实地反映算法应对现实世界复杂场景的实用能力。

背景与挑战

背景概述

视觉信息提取（VIE）作为文档智能领域的关键技术，旨在从视觉丰富的文档图像中同时执行光学字符识别与结构化信息抽取，其应用广泛覆盖收据理解、商品标签解析及交通标志识别等场景。然而，现有VIE基准数据集多局限于扫描文档图像，在布局结构多样性、背景干扰及实体类别丰富性方面存在显著不足，难以充分反映现实应用中的复杂挑战。为此，华中科技大学与腾讯优图实验室的研究团队于2023年联合推出了POIE数据集，该数据集聚焦于英文商品营养标签的相机图像，包含3000张高质量标注图像及逾11万文本实例，涵盖21类实体，其核心研究目标在于构建一个布局多变、背景噪声显著、实体形式多元的大规模数据集，以推动面向真实场景的端到端VIE算法发展。POIE的发布为文档理解领域提供了更贴近实际应用的评估基准，显著提升了模型在复杂环境下的泛化能力与鲁棒性。

当前挑战

POIE数据集所针对的视觉信息提取任务，其核心挑战在于如何统一处理OCR与信息提取这两个语义差异显著的子任务，并克服现实场景中布局多样性、实体形式多变及图像变形带来的干扰。具体而言，在领域问题层面，现有端到端VIE方法往往直接利用OCR特征作为信息提取模块的输入，忽视了任务间的语义鸿沟，导致在复杂布局（如折叠、弯曲、透视变形）及多形式实体（如同一实体具有多种表述变体）场景下性能显著下降。在数据集构建过程中，挑战主要体现在数据采集与标注环节：营养标签图像常伴随褶皱、弯曲、光照不均等物理变形，需通过多引擎OCR预标注与人工校验相结合的方式确保文本位置、转录及实体值标注的精确性；同时，实体类别繁多且存在大量同义表达，要求标注团队具备专业的领域知识以维持标注一致性，这些因素共同提升了数据集的构建难度与质量要求。

常用场景

经典使用场景

在视觉信息提取领域，POIE数据集以其丰富的相机拍摄图像和多样化的布局结构，成为评估端到端信息提取模型性能的经典基准。该数据集聚焦于产品营养标签的解析，涵盖了折叠、弯曲、变形及透视等多种真实世界扰动，为研究者在复杂场景下测试模型鲁棒性提供了理想平台。通过模拟实际应用中的视觉挑战，POIE推动了视觉文档理解算法在非结构化环境中的演进。

解决学术问题

POIE数据集有效解决了视觉信息提取研究中因布局单一、实体类别有限而导致的模型泛化不足问题。传统数据集如SROIE虽广泛使用，却难以充分反映真实场景中多样化的字体、背景及实体形态所带来的挑战。POIE通过引入21类实体及其多种表达形式，显著提升了任务的复杂性，促使学术界开发更先进的端到端框架，以弥合OCR与信息提取之间的语义鸿沟。

衍生相关工作

POIE数据集的发布催生了一系列针对端到端视觉信息提取的改进工作，特别是围绕对比学习与特征调整模块的创新。例如，研究者受POIE的启发，开发了对比引导的特征调整模块（CFAM），以增强OCR特征与信息提取任务之间的关联性。此外，该数据集也促进了如TRIE、VIES等现有方法的优化，推动了多模态文档理解领域向更复杂、更真实的场景扩展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集