five

LaTeX OCR 数学公式识别数据集

收藏
超神经2024-12-23 更新2024-12-21 收录
下载链接:
https://hyper.ai/cn/datasets/36490
下载链接
链接失效反馈
官方服务:
资源简介:
LaTeX OCR 数据集是一个专注于光学字符识别 (OCR) 领域中的复杂数学公式识别问题的数据集。 LaTeX OCR 数据集包含多个配置,每个配置具有不同的特征和数据划分。例如,「full」配置包含约 100k 的印刷体样本,而「synthetic_handwrite」配置则包含基于印刷体公式使用手写字体合成的 100k 手写体样本

The LaTeX OCR dataset is dedicated to the task of complex mathematical formula recognition within the optical character recognition (OCR) domain. The LaTeX OCR dataset includes multiple configurations, each with distinct characteristics and data splits. For example, the "full" configuration contains approximately 100k printed samples, while the "synthetic_handwrite" configuration includes 100k handwritten samples synthesized from printed mathematical formulas using handwritten fonts.
创建时间:
2024-12-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LaTeX OCR数学公式识别数据集是一个专注于数学公式OCR识别的专业数据集,包含约100k印刷体公式和手写体合成样本,共5种不同配置。该数据集适用于训练和评估处理复杂数学符号的OCR模型,在学术数字化和教育领域有重要应用价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务