EPHOIE

Name: EPHOIE
Creator: 华南理工大学
Published: 2021-01-24 19:05:24
License: 暂无描述

arXiv2021-01-24 更新2024-06-21 收录

下载链接：

https://github.com/HCIILAB/EPHOIE

下载链接

链接失效反馈

官方服务：

资源简介：

EPHOIE是首个针对中文的OCR和视觉信息提取的公开数据集，由华南理工大学创建。该数据集包含1494张来自中国各学校真实考试试卷头部的扫描图像，总计15,771个手写或打印的中文文本实例。数据集的创建过程涉及从考试试卷中裁剪出包含所有关键信息的头部区域。EPHOIE的应用领域主要集中在文档智能和视觉信息提取，旨在解决复杂布局和背景下的文本检测、识别及信息提取问题。

EPHOIE is the first publicly available dataset for Chinese-oriented optical character recognition (OCR) and visual information extraction, developed by South China University of Technology. This dataset contains 1,494 scanned images of the header sections of real exam papers from schools across China, with a total of 15,771 handwritten or printed Chinese text instances. The dataset construction process involves cropping the header regions containing all critical information from the exam papers. The application scenarios of EPHOIE mainly focus on document intelligence and visual information extraction, aiming to address the challenges of text detection, recognition and information extraction under complex layouts and backgrounds.

提供机构：

华南理工大学

创建时间：

2021-01-24

搜集汇总

数据集介绍

构建方式

EPHOIE数据集的构建旨在填补现有视觉信息提取(VIE)领域中，针对中文文本和复杂布局文档的基准数据集的空白。该数据集由1,494张试卷头部图片组成，这些图片从中国各地学校的真实试卷中收集并扫描而来，涵盖了复杂的布局和背景噪声。每张图片都被裁剪至只包含关键信息的头部区域。数据集包含了15,771个中文文本实例，包括手写和印刷字符，以及横排和任意四边形形状的文本。所有文本都被标注了边界框和内容，并且对于所有关键信息，还标注了实体键值对。EPHOIE数据集的构建不仅考虑了文本的定位和识别，还关注了信息提取阶段，从而为视觉信息提取研究提供了全面的数据支持。

使用方法

EPHOIE数据集的使用方法涉及多个阶段，包括文本检测、文本识别和信息提取。首先，使用文本检测分支对输入图像进行定位和识别，同时通过视觉协调机制(VCM)收集丰富的视觉特征。然后，文本识别分支负责识别文本内容，并通过语义协调机制(SCM)提供高层次的语义线索。信息提取分支则负责从已识别的文本中提取特定实体，并通过自适应特征融合模块(AFFM)整合来自不同来源和级别的特征。此外，EPHOIE数据集还提供了一个序列标注模块，用于从识别的字符串中区分出具体的实体。为了训练和评估模型，EPHOIE数据集被分为训练集和测试集，其中训练集包含1,183张图片，测试集包含311张图片。用户可以使用EPHOIE数据集来训练和测试他们的视觉信息提取模型，并与其他先进方法进行比较，以评估模型的性能和鲁棒性。

背景与挑战

背景概述

视觉信息提取（VIE）作为一项涉及文档理解、自动评分和智能教育等多个高级应用领域的研究课题，近年来受到了广泛的关注。传统的VIE研究通常将问题分解为文本检测、识别和信息提取三个独立的子任务，但在优化过程中往往忽略了它们之间的高度相关性。为解决这一问题，王佳鹏等人于2021年提出了一种鲁棒的视觉信息提取系统（VIES），该系统是一个统一的端到端可训练框架，能够同时进行文本检测、识别和信息提取。为了支持这一研究，他们构建了一个名为EPHOIE的完全注释数据集，该数据集包含1494张具有复杂布局和背景的考试试卷头部图像，以及总共15771个中文手写或印刷文本实例。EPHOIE是第一个同时用于文本检测和视觉信息提取的中文基准数据集，为相关领域的研究提供了宝贵的资源。

当前挑战

EPHOIE数据集和相关研究面临的挑战包括：1) 领域问题挑战：EPHOIE数据集旨在解决现实世界中具有复杂布局和手写文本的文档的视觉信息提取问题，这对现有算法的泛化能力提出了更高的要求。2) 构建挑战：构建EPHOIE数据集需要大量的人工标注工作，并且需要确保数据的多样性和质量。此外，由于中文文本的多样性和复杂性，如何有效地进行文本检测、识别和信息提取也是一个挑战。为了应对这些挑战，王佳鹏等人提出了一种名为VIES的鲁棒的视觉信息提取系统，该系统通过引入视觉协调机制（VCM）和语义协调机制（SCM）来收集丰富的视觉和语义特征，并通过自适应特征融合模块（AFFM）将这些特征整合到信息提取分支中。实验结果表明，VIES在EPHOIE数据集上表现出了显著的优势，并在广泛使用的SROIE数据集上实现了9.01%的F-score提升。

常用场景

经典使用场景

EPHOIE数据集被广泛应用于文档理解、自动批改和智能教育等视觉信息提取（VIE）任务。该数据集包含1494张带有复杂布局和背景的考试试卷头部图像，总计15,771个中文字符实例。这些图像被收集并扫描自中国不同学校的真实考试试卷，并裁剪了包含所有关键信息的试卷头部区域。EPHOIE数据集是第一个同时适用于文本检测和信息提取任务的中国数据集，为研究者和开发者提供了一个宝贵的资源。

解决学术问题

EPHOIE数据集解决了现有视觉信息提取方法中存在的几个关键问题。首先，它提供了一个具有复杂布局和背景的文档数据集，有助于提高模型在真实世界场景中的泛化能力。其次，EPHOIE数据集包含了丰富的中文文本实例，有助于推动中文文本检测和信息提取技术的发展。此外，EPHOIE数据集还引入了端到端可训练的视觉信息提取系统（VIES），该系统通过同时进行文本检测、识别和信息提取，提高了整个框架的性能。VIES的引入为视觉信息提取任务提供了一种新的思路和方法，对学术界和工业界都具有重要意义。

实际应用

EPHOIE数据集在实际应用场景中具有广泛的应用前景。例如，在教育领域，EPHOIE数据集可以帮助自动批改试卷，提高教师的工作效率。在金融领域，EPHOIE数据集可以用于自动提取发票和收据中的关键信息，实现自动化处理。此外，EPHOIE数据集还可以用于智能交通系统，自动识别和提取车牌号码等信息。EPHOIE数据集的广泛应用，有助于推动视觉信息提取技术的发展，并为各行各业带来更多的便利和效益。

数据集最近研究