JaPOC

Name: JaPOC
Creator: 快速会计株式会社
Published: 2024-09-30 13:01:49
License: 暂无描述

arXiv2024-09-30 更新2024-10-02 收录

下载链接：

https://github.com/FastAccounting/ocr_correction_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

JaPOC数据集是由快速会计株式会社创建的，专门用于评估OCR系统在处理日本凭证时的错误校正效果。该数据集包含11,000个真实世界的凭证图像，涵盖公司名称、金额、日期等信息。数据集的创建过程包括对图像进行裁剪、人工标注真实文本，并使用多种OCR服务进行文本识别。JaPOC数据集主要应用于商业自动化场景，旨在提高从纸质凭证中提取文本的准确性，解决OCR系统在处理复杂图像条件下的识别错误问题。

The JaPOC dataset was created by Kaisai Co., Ltd., specifically developed to evaluate the error correction performance of OCR systems when processing Japanese commercial vouchers. This dataset contains 11,000 real-world commercial voucher images, covering information such as company names, transaction amounts, dates, and other relevant details. The dataset construction process includes image cropping, manual annotation of ground-truth text, and text recognition using multiple OCR services. Primarily applied in business automation scenarios, the JaPOC dataset aims to enhance the accuracy of text extraction from paper-based vouchers and resolve the recognition error issues of OCR systems under complex imaging conditions.

提供机构：

快速会计株式会社

创建时间：

2024-09-30

原始信息汇总

日本語OCR誤り訂正ベンチマーク

概要

目的：日本語OCRの誤り訂正技術の向上
内容：証憑画像内の会社名や取引先名を中心に、複数のOCR技術で認識した結果と、人が読み取った正確なテキストのペアを収集したデータセット
用途：OCRの誤認識を訂正するためのベンチマーク

データ形式

ファイル形式：jsonl
ファイルパス：datasets_companyname/*.json
データ構造：
- id：項目ID
- tgt：あるべきOCR結果テキスト
- src：OCR結果テキスト
- correct：tgtとsrcが一致しているかの真偽

参考文献

藤武将人、「証憑を用いた日本語OCR誤り訂正ベンチマークの構築」、言語処理学会第30回年次大会(NLP2024)

搜集汇总

数据集介绍

构建方式

JaPOC数据集的构建基于日本发票中的真实扫描图像，特别是公司名称部分。研究团队通过裁剪包含公司名称的文本区域，从日本发票中随机抽取了11,000张图像，并由专业人员对这些图像进行了Ground Truth（GT）标注。随后，使用三种不同的OCR模型和服务（包括‘Japanese OCR’、Google Vision API和Robota API）对这些图像进行文本识别，生成标注数据与OCR结果的配对数据集。该数据集不仅包含了OCR识别的原始结果，还通过后处理步骤标准化了文本，以提高数据集的实用性和准确性。

特点

JaPOC数据集的显著特点在于其针对日本发票中公司名称的OCR错误校正，特别是处理因印章等噪声导致的识别问题。数据集包含了两种不同OCR服务的结果，提供了多样化的错误类型和校正需求，为后续研究提供了丰富的实验基础。此外，JaPOC数据集的构建考虑了个人信息的保护，移除了公司代表等敏感信息，确保数据集的合规性和安全性。

使用方法

JaPOC数据集主要用于评估和改进OCR系统在处理日本发票时的错误校正能力。研究者可以使用该数据集训练和验证基于语言模型（如T5）和规则基础的错误校正模型。具体使用方法包括将数据集分为训练、验证和测试集，利用OCR识别结果作为输入，Ground Truth作为输出，进行模型训练和性能评估。通过对比不同模型的校正效果，可以有效提升OCR系统在实际应用中的准确性和鲁棒性。

背景与挑战

背景概述

在商业自动化领域，准确提取公司文档图像中的文本，如发票，是至关重要的。尽管数字文档的普及，纸质凭证仍然存在，因此光学字符识别（OCR）技术成为读取扫描凭证文本的关键。Masato Fujitake及其团队在2024年创建了JaPOC数据集，专注于日本凭证的OCR后校正。该数据集的核心研究问题是如何有效校正OCR系统在处理日本凭证时产生的错误，尤其是在公司名称等关键信息上。由于日本会计实践中常在文档上盖章以防止伪造，这导致文本图像中存在噪声，从而影响OCR的准确性。JaPOC数据集的创建填补了日本OCR错误校正基准的空白，为未来研究提供了基础，并展示了在实际应用中显著提升识别准确性的潜力。

当前挑战

JaPOC数据集面临的主要挑战包括：首先，日本凭证中的噪声（如盖章）对OCR识别准确性造成显著影响，这要求校正方法能够有效处理这些噪声。其次，构建过程中，数据集需要包含真实世界的错误，这要求对大量凭证图像进行标注和处理，确保数据集的质量和代表性。此外，现有的OCR服务和模型在处理日本凭证时表现不一，JaPOC需要评估并整合这些服务的输出，以构建一个全面的校正基准。最后，尽管语言模型在文本校正中显示出潜力，但如何选择和微调这些模型以适应特定的OCR错误校正任务，仍然是一个开放且复杂的问题。

常用场景

经典使用场景

在商业自动化领域，JaPOC数据集的经典使用场景主要集中在日本企业文档的光学字符识别（OCR）后错误校正。具体而言，该数据集通过提供包含真实世界错误的日本凭证图像，帮助研究人员和开发者评估和提升OCR系统的准确性。通过对比不同OCR服务的结果与人工标注的正确文本，JaPOC数据集为构建和验证OCR后校正模型提供了宝贵的资源。

解决学术问题

JaPOC数据集解决了在OCR技术应用中常见的学术研究问题，即如何有效校正因图像噪声（如印章）导致的识别错误。该数据集通过提供高质量的标注数据和多种OCR服务的识别结果，促进了OCR后校正技术的研究，特别是在日本语言环境下的应用。其意义在于推动了OCR技术在实际应用中的准确性和可靠性，为相关领域的研究提供了新的基准和方法。

衍生相关工作

JaPOC数据集的发布催生了多项相关研究工作，特别是在OCR后校正和语言模型应用方面。例如，基于T5模型的序列到序列转换方法被广泛应用于OCR错误校正，显著提升了识别准确率。此外，该数据集还激发了对规则基础方法和深度学习方法在OCR后校正中性能的比较研究，推动了相关技术的进步和创新。这些衍生工作不仅丰富了OCR技术的研究内容，也为实际应用提供了更多有效的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集