test_latex_ocr

Name: test_latex_ocr
Creator: maas
Published: 2025-10-16 20:24:19
License: 暂无描述

魔搭社区2025-10-16 更新2024-11-16 收录

下载链接：

https://modelscope.cn/datasets/wangxingjun778/test_latex_ocr

下载链接

链接失效反馈

官方服务：

资源简介：

# LaTeX OCR 的数据仓库本数据仓库是专为 [LaTeX_OCR](https://github.com/LinXueyuanStdio/LaTeX_OCR) 及 [LaTeX_OCR_PRO](https://github.com/LinXueyuanStdio/LaTeX_OCR) 制作的数据，来源于 `https://zenodo.org/record/56198#.V2p0KTXT6eA` 以及 `https://www.isical.ac.in/~crohme/` 以及我们自己构建。如果这个数据仓库有帮助到你的话，请点亮 ❤️like ++ 后续追加新的数据也会放在这个仓库 ~~ > 原始数据仓库在github [LinXueyuanStdio/Data-for-LaTeX_OCR](https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR). ## 数据集本仓库有 5 个数据集 1. `small` 是小数据集，样本数 110 条，用于测试 2. `full` 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k，因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。 3. `synthetic_handwrite` 是手写体 100k 的完整数据集，基于 `full` 的公式，使用手写字体合成而来，可以视为人类在纸上的手写体。样本数实际上略小于 100k，理由同上。 4. `human_handwrite` 是手写体较小数据集，更符合人类在电子屏上的手写体。主要来源于 `CROHME`。我们用 LaTeX 的抽象语法树校验过了。 5. `human_handwrite_print` 是来自 `human_handwrite` 的印刷体数据集，公式部分和 `human_handwrite` 相同，图片部分由公式用 LaTeX 渲染而来。 ## 使用加载训练集 - name 可选 small, full, synthetic_handwrite, human_handwrite, human_handwrite_print - split 可选 train, validation, test ```python >>> from modelscope import MsDataset >>> train_dataset = MsDataset.load("wangxingjun778/test_latex_ocr", subset_name="small", split="train") >>> train_dataset[2] {'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50 at 0x15A5D6CE210>, 'text': '\\rho _ { L } ( q ) = \\sum _ { m = 1 } ^ { L } \\ P _ { L } ( m ) \\ { \\frac { 1 } { q ^ { m - 1 } } } .'} >>> len(train_dataset) 50 # 备注： default subset为full，加载full时直接使用: >>> ds = MsDataset.load("wangxingjun778/test_latex_ocr", split="train") ``` 加载所有 ```python >>> from modelscope import MsDataset >>> dataset = MsDataset.load('wangxingjun778/test_latex_ocr', subset_name='small') >>> dataset DatasetDict({ train: Dataset({ features: ['image', 'text'], num_rows: 50 }) validation: Dataset({ features: ['image', 'text'], num_rows: 30 }) test: Dataset({ features: ['image', 'text'], num_rows: 30 }) }) ```

# LaTeX OCR 数据集仓库本仓库专为 [LaTeX_OCR](https://github.com/LinXueyuanStdio/LaTeX_OCR) 及 [LaTeX_OCR_PRO](https://github.com/LinXueyuanStdio/LaTeX_OCR) 打造，数据集来源包括 `https://zenodo.org/record/56198#.V2p0KTXT6eA`、`https://www.isical.ac.in/~crohme/` 以及本团队自主构建的数据源。若本仓库对您的研究有所助益，请点亮 ❤️like ++。后续新增数据集亦将存放于本仓库 ~~ > 原始数据集仓库托管于 GitHub：[LinXueyuanStdio/Data-for-LaTeX_OCR](https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR) ## 数据集概览本仓库共包含5个数据集： 1. `small`：小型测试数据集，共包含110条样本，用于模型快速验证。 2. `full`：印刷体完整数据集，原始规模约100k条样本。由于通过LaTeX抽象语法树过滤掉了大量无法正常渲染的LaTeX公式，实际样本数略少于100k。 3. `synthetic_handwrite`：合成手写体完整数据集，规模约100k条样本。该数据集基于`full`数据集内的公式，通过手写字体合成生成，可模拟真实纸笔手写体。同样因LaTeX抽象语法树过滤，实际样本数略少于100k。 4. `human_handwrite`：小型人类手写体数据集，更贴合电子屏幕上的人类手写输入场景，主要数据源为`CROHME`数据集。本仓库已通过LaTeX抽象语法树对其进行合法性校验。 5. `human_handwrite_print`：`human_handwrite` 配套印刷体数据集，其公式文本与`human_handwrite`完全一致，图片部分通过LaTeX渲染公式生成。 ## 使用方法加载训练集： - 子集名称（subset_name）可选值：small、full、synthetic_handwrite、human_handwrite、human_handwrite_print - 拆分方式（split）可选值：train、validation、test python >>> from modelscope import MsDataset >>> train_dataset = MsDataset.load("wangxingjun778/test_latex_ocr", subset_name="small", split="train") >>> train_dataset[2] {'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50 at 0x15A5D6CE210>, 'text': '\rho _ { L } ( q ) = sum _ { m = 1 } ^ { L } P _ { L } ( m ) { frac { 1 } { q ^ { m - 1 } } } .'} >>> len(train_dataset) 50 # 备注：默认子集为full，加载full数据集时可直接使用： >>> ds = MsDataset.load("wangxingjun778/test_latex_ocr", split="train") 加载全量数据集： python >>> from modelscope import MsDataset >>> dataset = MsDataset.load('wangxingjun778/test_latex_ocr', subset_name='small') >>> dataset DatasetDict({ train: Dataset({ features: ['image', 'text'], num_rows: 50 }) validation: Dataset({ features: ['image', 'text'], num_rows: 30 }) test: Dataset({ features: ['image', 'text'], num_rows: 30 }) })

提供机构：

maas

创建时间：

2024-11-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集