five

JaPOC

收藏
arXiv2024-09-30 更新2024-10-02 收录
下载链接:
https://github.com/FastAccounting/ocr_correction_benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
JaPOC数据集是由快速会计株式会社创建的,专门用于评估OCR系统在处理日本凭证时的错误校正效果。该数据集包含11,000个真实世界的凭证图像,涵盖公司名称、金额、日期等信息。数据集的创建过程包括对图像进行裁剪、人工标注真实文本,并使用多种OCR服务进行文本识别。JaPOC数据集主要应用于商业自动化场景,旨在提高从纸质凭证中提取文本的准确性,解决OCR系统在处理复杂图像条件下的识别错误问题。

The JaPOC dataset was created by Kaisai Co., Ltd., specifically developed to evaluate the error correction performance of OCR systems when processing Japanese commercial vouchers. This dataset contains 11,000 real-world commercial voucher images, covering information such as company names, transaction amounts, dates, and other relevant details. The dataset construction process includes image cropping, manual annotation of ground-truth text, and text recognition using multiple OCR services. Primarily applied in business automation scenarios, the JaPOC dataset aims to enhance the accuracy of text extraction from paper-based vouchers and resolve the recognition error issues of OCR systems under complex imaging conditions.
提供机构:
快速会计株式会社
创建时间:
2024-09-30
原始信息汇总

日本語OCR誤り訂正ベンチマーク

概要

  • 目的:日本語OCRの誤り訂正技術の向上
  • 内容:証憑画像内の会社名や取引先名を中心に、複数のOCR技術で認識した結果と、人が読み取った正確なテキストのペアを収集したデータセット
  • 用途:OCRの誤認識を訂正するためのベンチマーク

データ形式

  • ファイル形式:jsonl
  • ファイルパス:datasets_companyname/*.json
  • データ構造:
    • id:項目ID
    • tgt:あるべきOCR結果テキスト
    • src:OCR結果テキスト
    • correct:tgtとsrcが一致しているかの真偽

参考文献

  • 藤武将人、「証憑を用いた日本語OCR誤り訂正ベンチマークの構築」、言語処理学会第30回年次大会(NLP2024)
搜集汇总
数据集介绍
main_image_url
构建方式
JaPOC数据集的构建基于日本发票中的真实扫描图像,特别是公司名称部分。研究团队通过裁剪包含公司名称的文本区域,从日本发票中随机抽取了11,000张图像,并由专业人员对这些图像进行了Ground Truth(GT)标注。随后,使用三种不同的OCR模型和服务(包括‘Japanese OCR’、Google Vision API和Robota API)对这些图像进行文本识别,生成标注数据与OCR结果的配对数据集。该数据集不仅包含了OCR识别的原始结果,还通过后处理步骤标准化了文本,以提高数据集的实用性和准确性。
特点
JaPOC数据集的显著特点在于其针对日本发票中公司名称的OCR错误校正,特别是处理因印章等噪声导致的识别问题。数据集包含了两种不同OCR服务的结果,提供了多样化的错误类型和校正需求,为后续研究提供了丰富的实验基础。此外,JaPOC数据集的构建考虑了个人信息的保护,移除了公司代表等敏感信息,确保数据集的合规性和安全性。
使用方法
JaPOC数据集主要用于评估和改进OCR系统在处理日本发票时的错误校正能力。研究者可以使用该数据集训练和验证基于语言模型(如T5)和规则基础的错误校正模型。具体使用方法包括将数据集分为训练、验证和测试集,利用OCR识别结果作为输入,Ground Truth作为输出,进行模型训练和性能评估。通过对比不同模型的校正效果,可以有效提升OCR系统在实际应用中的准确性和鲁棒性。
背景与挑战
背景概述
在商业自动化领域,准确提取公司文档图像中的文本,如发票,是至关重要的。尽管数字文档的普及,纸质凭证仍然存在,因此光学字符识别(OCR)技术成为读取扫描凭证文本的关键。Masato Fujitake及其团队在2024年创建了JaPOC数据集,专注于日本凭证的OCR后校正。该数据集的核心研究问题是如何有效校正OCR系统在处理日本凭证时产生的错误,尤其是在公司名称等关键信息上。由于日本会计实践中常在文档上盖章以防止伪造,这导致文本图像中存在噪声,从而影响OCR的准确性。JaPOC数据集的创建填补了日本OCR错误校正基准的空白,为未来研究提供了基础,并展示了在实际应用中显著提升识别准确性的潜力。
当前挑战
JaPOC数据集面临的主要挑战包括:首先,日本凭证中的噪声(如盖章)对OCR识别准确性造成显著影响,这要求校正方法能够有效处理这些噪声。其次,构建过程中,数据集需要包含真实世界的错误,这要求对大量凭证图像进行标注和处理,确保数据集的质量和代表性。此外,现有的OCR服务和模型在处理日本凭证时表现不一,JaPOC需要评估并整合这些服务的输出,以构建一个全面的校正基准。最后,尽管语言模型在文本校正中显示出潜力,但如何选择和微调这些模型以适应特定的OCR错误校正任务,仍然是一个开放且复杂的问题。
常用场景
经典使用场景
在商业自动化领域,JaPOC数据集的经典使用场景主要集中在日本企业文档的光学字符识别(OCR)后错误校正。具体而言,该数据集通过提供包含真实世界错误的日本凭证图像,帮助研究人员和开发者评估和提升OCR系统的准确性。通过对比不同OCR服务的结果与人工标注的正确文本,JaPOC数据集为构建和验证OCR后校正模型提供了宝贵的资源。
解决学术问题
JaPOC数据集解决了在OCR技术应用中常见的学术研究问题,即如何有效校正因图像噪声(如印章)导致的识别错误。该数据集通过提供高质量的标注数据和多种OCR服务的识别结果,促进了OCR后校正技术的研究,特别是在日本语言环境下的应用。其意义在于推动了OCR技术在实际应用中的准确性和可靠性,为相关领域的研究提供了新的基准和方法。
衍生相关工作
JaPOC数据集的发布催生了多项相关研究工作,特别是在OCR后校正和语言模型应用方面。例如,基于T5模型的序列到序列转换方法被广泛应用于OCR错误校正,显著提升了识别准确率。此外,该数据集还激发了对规则基础方法和深度学习方法在OCR后校正中性能的比较研究,推动了相关技术的进步和创新。这些衍生工作不仅丰富了OCR技术的研究内容,也为实际应用提供了更多有效的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作