LaTeX公式识别数据集
收藏github2025-03-10 更新2025-03-11 收录
下载链接:
https://github.com/Wrste/bigSunOCR
下载链接
链接失效反馈官方服务:
资源简介:
用于手写数学公式和复杂印刷公式识别的数据集。
A dataset for handwritten mathematical formula and complex printed formula recognition.
创建时间:
2025-02-22
原始信息汇总
BigSunOCR 数据集概述
数据集简介
- 项目名称:BigSunOCR
- 项目目标:开发一个低成本训练和推理的OCR系统,用于教育和研究场景中识别手写数学公式和复杂印刷公式。
- 开发团队:成都微珑汇科技有限公司(WIHEX.INC)的高级人工智能算法工程师。
技术特点
- 改进CRNN技术,支持长序列LaTeX公式识别。
- 不采用注意力机制,使用ResNet18网络和双向LSTM结构。
- 引入优化方法,包括图片位置编码、SEBlock、残差连接。
环境要求
- Python >= 3.8
- PyTorch == 2.4.0
- OpenCV-Python == 4.5.5
- NumPy
- Matplotlib
- TQDM
使用方法
- 训练模型:
python trainModel.py - 测试模型:
python testModel.py - 使用模型预测:
python predict.py --image_path path/to/your/image.jpg
数据集结构
bigSunOCR/ ├── Data-for-LaTeX_OCR/ # 数据集 │ ├── hand/ # 手写公式数据 │ └── vocabDict/ # 词汇表
性能指标
- 训练效果:总损失 1.1550,平均损失 0.0048,平均准确度 0.98
- 测试效果(CPU):平均准确度 0.7134,平均推理时间 0.0876 秒
- 验证效果(CPU):平均准确度 0.7787,平均推理时间 0.0858 秒
联系方式
- 项目负责人:太阳大
- 邮箱:775106129@qq.com
- 公司邮箱:fxc@wlhex.com
许可证
- Apache License Version 2.0
搜集汇总
数据集介绍

构建方式
该数据集的构建立足于深度学习技术在OCR领域的应用,旨在实现对数学公式,尤其是手写与复杂印刷公式的精准识别。数据集通过收集大量的手写数学公式、印刷体公式样本,采用图像处理技术进行预处理,再利用深度学习框架进行模型训练,从而构建了一个适用于教育和研究场景的数学公式识别数据集。
特点
该数据集的特点在于其涵盖了广泛的手写与印刷体数学公式样本,具有较好的多样性和代表性。技术层面上,数据集利用了CRNN结构的变体,通过改进网络结构以支持长序列LaTeX公式的识别,同时采用了图片位置编码、SEBlock和残差连接等优化技术,增强了模型的识别能力和泛化能力。
使用方法
使用该数据集前,需确保环境满足Python 3.8以上版本及相关的依赖库。数据集的使用包括模型的训练、测试和预测三个阶段。训练阶段通过执行trainModel.py脚本进行;测试阶段则通过testModel.py脚本验证模型性能;预测阶段,用户可通过predict.py脚本对新的图像进行公式识别。此外,项目还提供了预训练模型以加速使用流程。
背景与挑战
背景概述
LaTeX公式识别数据集,由成都微珑汇科技有限公司的高级人工智能算法工程师开发于2024年,旨在满足教育和研究领域对低成本训练和推理的OCR任务需求。该数据集聚焦于手写数学公式、印刷体公式及复杂公式的识别,对相关领域的研究与发展产生了重要影响,推动了光学字符识别技术在数学公式识别方面的应用。
当前挑战
该数据集在研究领域面临的挑战主要包括:如何提高对复杂公式和长序列LaTeX公式的识别准确性,以及优化模型在低功耗设备上的运行效率。在构建过程中,技术团队克服了长序列识别的限制,并采用了多种优化方法来增强模型性能,但仍需不断探索以实现更高的准确度和更广泛的应用适应性。
常用场景
经典使用场景
在深度学习领域,LaTeX公式识别数据集被广泛应用于教育和研究场景,旨在实现对手写数学公式和复杂印刷公式的有效识别。该数据集的经典使用场景包括对学术文献中的公式进行自动提取和识别,以及对在线教育平台中学生的手写公式进行智能解析。
解决学术问题
该数据集解决了学术研究中对于数学公式自动识别的需求,减轻了研究人员在处理大量学术文献时的负担。它提高了公式识别的准确性,降低了识别成本,为学术出版物的数字化处理提供了重要支持,从而推动了学术研究的效率和智能化进程。
衍生相关工作
基于该数据集,衍生出了多项相关工作,包括数学公式识别算法的改进、跨学科数据集的构建、以及数学公式识别在教育技术中的应用研究。这些研究进一步扩展了数据集的使用范围,促进了相关领域的科技进步。
以上内容由遇见数据集搜集并总结生成



