PEaCE (Printed English and Chemical Equations) dataset

Name: PEaCE (Printed English and Chemical Equations) dataset
Creator: 信息科学与技术学院，宾夕法尼亚州立大学，美国
Published: 2024-03-23 13:20:36
License: 暂无描述

arXiv2024-03-23 更新2024-06-21 收录

下载链接：

https://github.com/ZN1010/PEaCE

下载链接

链接失效反馈

官方服务：

资源简介：

PEaCE数据集是由宾夕法尼亚州立大学的信息科学与技术学院创建，专注于化学领域的光学字符识别（OCR）。该数据集包含超过130万条记录，包括合成和真实世界的文本图像，特别关注化学论文。数据集分为三个部分：打印英语文本、伪化学方程式和数值记录。PEaCE旨在解决现有OCR模型在处理科学文档中特殊格式文本（如上标和下标）时的不足，通过提供包含这些特征的训练数据，提高模型在实际应用中的性能。

The PEaCE dataset was created by the College of Information Sciences and Technology at The Pennsylvania State University, focusing on optical character recognition (OCR) in the field of chemistry. This dataset contains over 1.3 million records, including both synthetic and real-world text images, with a particular focus on chemistry-related academic papers. The dataset is divided into three subsets: printed English text, pseudo-chemical equations, and numerical records. The PEaCE dataset aims to address the limitations of existing OCR models when handling specially formatted text such as superscripts and subscripts in scientific documents, and improve the models' performance in practical applications by providing training data containing these features.

提供机构：

信息科学与技术学院，宾夕法尼亚州立大学，美国

创建时间：

2024-03-23

搜集汇总

数据集介绍

构建方式

PEaCE数据集的构建融合了合成数据与真实世界数据两大模块。合成部分通过从arXiv、PubMed及chemRxiv等大规模学术摘要语料中随机截取文本片段，并施加超/下标插入、LaTeX符号嵌入及随机换行等扰动以模拟真实科学文献的复杂性。针对化学领域，采用随机组合化学元素与数量生成伪化学方程式，并加入数学符号构建数值记录。所有合成图像均通过matplotlib库以随机字体和字号渲染，生成超过120万条记录。真实世界测试集则从聚合物热解领域论文中提取21张表格，经Multi-Type-TD-TSR模型切割为单个单元格图像，最终筛选出319张具有代表性的单元格，涵盖普通文本与需特殊LaTeX符号的复杂内容。

使用方法

该数据集专为训练和评估基于Transformer的OCR模型而设计，尤其适用于处理科学文档中表格单元格级别的文本识别任务。使用者可将其与ViT（Vision Transformer）或Pix2Tex等模型结合，通过调整patch size（如10×10或16×16）来平衡识别精度与计算开销。建议采用多域联合训练策略，将PEaCE与im2latex-100k等数学公式数据集混合使用，以提升模型在跨领域内容上的泛化能力。同时，论文提出的像素化、加粗和随机空白填充三种图像变换方法，可有效模拟真实文档的退化现象，增强模型鲁棒性。最终，模型输出为LaTeX格式的文本字符串，便于直接嵌入下游的表格解析或文档理解流程。

背景与挑战

背景概述

光学字符识别（OCR）作为一项基础且成熟的技术，旨在从图像中精准提取文本信息，广泛应用于各类文档数字化场景。然而，现有OCR模型与数据集多聚焦于单一领域，例如通用印刷英文或科学公式（如数学与物理符号），鲜有兼顾二者的综合性资源。2024年，宾夕法尼亚州立大学信息科学与技术学院及化学工程系的研究团队（Nan Zhang, Connor Heaton等）提出了PEaCE（Printed English and Chemical Equations）数据集，旨在弥合这一鸿沟。该数据集包含超过百万张合成图像（涵盖印刷英文、伪化学方程式与数值记录）以及319张来自真实化学学术论文的测试图像，所有标签均以LaTeX格式呈现。PEaCE的创建不仅填补了化学领域OCR数据的空白，还揭示了现有模型在混合文本场景下的性能短板，为科学文档的深度信息提取开辟了新路径。

当前挑战

PEaCE数据集所面临的挑战具有双重性。在领域问题层面，现有OCR模型（如专攻科学公式的Pix2tex或通用文本的Tesseract）难以同时精准识别混合了印刷英文与化学符号（如Na₂CO₃中的下标）的文本，导致在化学论文表格解析等任务中表现不佳。此外，Nougat等工具虽能解析学术文档，却因预处理管线限制而无法正确识别PubMed文章中以嵌入图像形式呈现的表格。在数据集构建层面，合成记录与真实世界记录之间存在显著差异——真实图像常包含像素化、字体模糊、多余空白等伪影，而现有合成数据缺乏此类特征。研究团队为此提出了像素化、加粗与随机填充三种变换策略以模拟真实噪声，但如何高效迁移模型从合成域到真实域仍是核心挑战。

常用场景

经典使用场景

PEaCE数据集专为科学文献中的光学字符识别（OCR）任务而设计，其核心应用场景在于从化学论文的表格中精准提取包含印刷英文与化学方程式的混合文本。该数据集包含超过100万张合成图像，涵盖印刷英文、伪化学方程式和数值记录，并辅以319张真实世界文献图像作为测试集。通过模拟表格单元格的短文本片段，PEaCE为训练能够同时处理普通英文和科学符号（如上标、下标及LATEX特殊字符）的OCR模型提供了高质量的基准资源，尤其适用于那些现有工具如Nougat在解析PubMed表格时表现不佳的领域。

解决学术问题

PEaCE数据集旨在弥合现有OCR模型在科学文本与普通印刷英文之间的性能鸿沟。传统模型如Tesseract无法处理科学符号的格式，而Pix2tex等工具则对普通英文识别能力不足。PEaCE通过提供首个混合域训练数据，解决了学术研究中化学文献中表格内容难以被准确OCR解析的痛点。该数据集揭示了现有模型在真实世界化学论文上的显著性能下降（如BLEU分数从99.53骤降至81.24），从而推动了针对复杂混合文本的鲁棒OCR模型研究，其意义在于提升了科学文献数字化处理的可及性与准确性。

实际应用

在实际应用中，PEaCE数据集赋能了化学、生物医学等硬科学领域文献的自动化数据提取流程。例如，结合SOTA表格解析模型如Multi-Type-TD-TSR，PEaCE训练的OCR模型能够从扫描版或PDF格式的学术论文中精确提取表格内容，包括化学分子式（如Na2CO3）和特殊符号。这一能力直接支持了大规模文献元数据构建、化学数据库自动化填充以及科学知识图谱的生成。此外，PEaCE的代码库允许用户自定义生成不同长度和格式的记录，使其可灵活适配于各类文档分析场景，显著降低了学术社区中非结构化文本处理的人力成本。

数据集最近研究