수학 수식 OCR 데이터셋

github2021-12-24 更新2024-05-31 收录

下载链接：

https://github.com/connectfoundation/naverconnect-dataset-formularecognition

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于印刷物和手写数学公式数据创建，包含公式图像及其对应的LaTeX公式和学术难度级别。数据集由10万个训练数据和9000个评估数据组成，其中训练数据公开。数据集不仅包含LaTeX公式，还包括根据学术水平标注的标签和公式图像的来源信息，支持多样化的数学公式识别研究和开发。

This dataset is created based on printed and handwritten mathematical formula data, containing formula images along with their corresponding LaTeX formulas and academic difficulty levels. The dataset consists of 100,000 training data points and 9,000 evaluation data points, with the training data being publicly available. In addition to LaTeX formulas, the dataset also includes labels annotated according to academic levels and source information of the formula images, supporting diverse research and development in mathematical formula recognition.

创建时间：

2021-11-18

原始信息汇总

数据集概述

数据集创建者

NAVER Connect Foundation

数据集内容

包含100,000个训练用数据和9,000个评估用数据。
数据集由印刷和手写数学公式图像组成，每个图像对应一个LaTeX公式和学术难度级别。
训练数据公开，评估数据未提及是否公开。

数据集结构

训练数据集
- gt.txt: LaTeX ground truth文件。
- level.txt: 学术级别信息文件。
- source.txt: 图像来源信息文件。
- tokens.txt: 基于LaTeX ground truth的token信息文件。
- images/: 包含所有数学公式图像的文件夹。
评估数据集
- 结构与训练数据集相同。

数据集特征

数据来源于真实世界的手写和印刷图像，包含光照、角度等真实环境因素。
除了LaTeX公式外，还包括学术级别和图像来源信息，支持多样化的数学公式识别研究和开发。

数据预处理

图像处理：检测边界框后，根据文本方向进行编辑。
文本处理：所有token通过空格分隔，可组合的token使用{}进行分组。

数据集示例

展示了部分训练数据集中的gt.txt, level.txt, source.txt和tokens.txt的内容。

许可证

本数据集根据Creative Commons Attribution 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

该数据集由NAVER Connect Foundation构建，基于印刷体和手写数学公式图像，结合对应的LaTeX公式和学术难度标签。数据集包含10万条训练数据和9000条评估数据，训练数据已公开。数据预处理过程中，图像经过边界框检测和文本方向校正，LaTeX公式则被分解为最小单元并分组处理，确保符号和结构的准确性。

特点

该数据集的特点在于其真实世界中的手写和印刷体数学公式图像，涵盖了不同光照条件和拍摄角度，具有较高的现实应用价值。此外，数据集不仅包含LaTeX公式，还提供了学术难度标签和图像来源信息，支持多样化的数学公式识别研究和开发。

使用方法

数据集的使用方法包括通过`gt.txt`文件获取LaTeX公式的真实标签，通过`level.txt`和`source.txt`文件分别获取学术难度和图像来源信息。`tokens.txt`文件则提供了LaTeX公式的分词信息。用户可以通过这些文件进行模型训练和评估，适用于数学公式识别、OCR技术开发以及教育领域的研究。

背景与挑战

背景概述

수학 수식 OCR 데이터셋은 네이버 커넥트 재단에 의해 개발된 데이터셋으로, 수학 수식의 광학 문자 인식(OCR) 연구를 지원하기 위해 제작되었습니다. 이 데이터셋은 인쇄물과 손글씨로 작성된 수식 이미지와 해당 수식의 LaTeX 표현, 학업 난이도 정보를 포함하고 있습니다. 데이터셋은 10만 개의 학습용 데이터와 9천 개의 평가용 데이터로 구성되어 있으며, 다양한 학업 수준의 수식을 다루고 있어 수학 교육 및 연구에 중요한 자원으로 활용될 수 있습니다. 이 데이터셋은 특히 수학 수식의 자동 인식 및 변환 기술의 발전에 기여하며, 교육 기술 및 디지털 학습 도구 개발에 중요한 역할을 합니다.

当前挑战

수학 수식 OCR 데이터셋은 수학 수식의 복잡성과 다양성으로 인해 여러 도전 과제를 안고 있습니다. 첫째, 수식의 구조적 복잡성과 다양한 표현 방식은 정확한 인식을 어렵게 만듭니다. 둘째, 손글씨 수식의 경우 개인의 필체 차이로 인해 인식 정확도가 저하될 수 있습니다. 데이터셋 구축 과정에서는 수식 이미지의 정렬 및 전처리, LaTeX 표현의 정확한 변환 등 기술적 어려움이 있었으며, 특히 빛의 조도와 촬영 각도와 같은 외부 환경 요인도 데이터 품질에 영향을 미쳤습니다. 이러한 도전들은 수학 수식 OCR 기술의 정확성과 신뢰성을 높이기 위해 해결해야 할 중요한 과제입니다.

常用场景

经典使用场景

该数据集广泛应用于数学公式的光学字符识别（OCR）研究领域，特别是在处理手写和印刷体数学公式的识别任务中。研究者利用该数据集训练深度学习模型，以提高模型在复杂数学符号和结构上的识别准确率。

实际应用

在实际应用中，该数据集被用于开发智能教育工具，如自动批改数学作业的系统和在线数学学习平台。这些工具能够自动识别和解析学生提交的数学公式，提供即时反馈和评分，极大地提高了教学效率和学生的学习体验。

衍生相关工作

基于该数据集，研究者们开发了多种先进的数学公式识别模型，如基于卷积神经网络（CNN）和循环神经网络（RNN）的混合模型。这些模型在多个国际竞赛中取得了优异成绩，并推动了相关领域的研究进展。此外，该数据集还催生了一系列开源工具和库，进一步促进了学术界的合作与创新。

以上内容由遇见数据集搜集并总结生成