five

LaTeX_OCR

收藏
魔搭社区2026-05-16 更新2024-06-15 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/LaTeX_OCR
下载链接
链接失效反馈
官方服务:
资源简介:
# LaTeX OCR 的数据仓库 本数据仓库是专为 [LaTeX_OCR](https://github.com/LinXueyuanStdio/LaTeX_OCR) 及 [LaTeX_OCR_PRO](https://github.com/LinXueyuanStdio/LaTeX_OCR) 制作的数据,来源于 `https://zenodo.org/record/56198#.V2p0KTXT6eA` 以及 `https://www.isical.ac.in/~crohme/` 以及我们自己构建。 如果这个数据仓库有帮助到你的话,请点亮 ❤️like ++ 后续追加新的数据也会放在这个仓库 ~~ > 原始数据仓库在github [LinXueyuanStdio/Data-for-LaTeX_OCR](https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR). ## 数据集 本仓库有 5 个数据集 1. `small` 是小数据集,样本数 110 条,用于测试 2. `full` 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。 3. `synthetic_handwrite` 是手写体 100k 的完整数据集,基于 `full` 的公式,使用手写字体合成而来,可以视为人类在纸上的手写体。样本数实际上略小于 100k,理由同上。 4. `human_handwrite` 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 `CROHME`。我们用 LaTeX 的抽象语法树校验过了。 5. `human_handwrite_print` 是来自 `human_handwrite` 的印刷体数据集,公式部分和 `human_handwrite` 相同,图片部分由公式用 LaTeX 渲染而来。 ## 使用 加载训练集 - name 可选 small, full, synthetic_handwrite, human_handwrite, human_handwrite_print - split 可选 train, validation, test ```python >>> from modelscope import MsDataset >>> train_dataset = MsDataset.load("AI-ModelScope/LaTeX_OCR", subset_name="small", split="train") >>> train_dataset[2] {'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50 at 0x15A5D6CE210>, 'text': '\\rho _ { L } ( q ) = \\sum _ { m = 1 } ^ { L } \\ P _ { L } ( m ) \\ { \\frac { 1 } { q ^ { m - 1 } } } .'} >>> len(train_dataset) 50 # 备注: default subset为full,加载full时直接使用: >>> ds = MsDataset.load("AI-ModelScope/LaTeX_OCR", split="train") ``` 加载所有 ```python >>> from modelscope import MsDataset >>> dataset = MsDataset.load('AI-ModelScope/LaTeX_OCR', subset_name='small') >>> dataset DatasetDict({ train: Dataset({ features: ['image', 'text'], num_rows: 50 }) validation: Dataset({ features: ['image', 'text'], num_rows: 30 }) test: Dataset({ features: ['image', 'text'], num_rows: 30 }) }) ```

# LaTeX OCR 数据集仓库 本仓库为 [LaTeX_OCR](https://github.com/LinXueyuanStdio/LaTeX_OCR) 及 [LaTeX_OCR_PRO](https://github.com/LinXueyuanStdio/LaTeX_OCR) 打造专属数据集,数据源自 `https://zenodo.org/record/56198#.V2p0KTXT6eA`、`https://www.isical.ac.in/~crohme/` 以及团队自研构建。 若本数据集仓库对你的研究有所助益,恳请点亮 ❤️like 以示支持。后续新增数据集也将同步更新至本仓库。 原始数据集仓库托管于 GitHub:[LinXueyuanStdio/Data-for-LaTeX_OCR](https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR). ## 数据集 本仓库共包含5个数据集子集: 1. `small`:小型测试数据集,共计110条样本,用于模型测试验证。 2. `full`:印刷体完整数据集,原始规模约100k。由于借助LaTeX抽象语法树(Abstract Syntax Tree)过滤掉大量无法正常渲染的LaTeX公式,实际样本量略少于100k。 3. `synthetic_handwrite`:合成手写体完整数据集,规模约100k。该数据集基于`full`子集的公式样本,通过手写字体渲染合成,可模拟真实纸面手写公式效果。同前所述,实际样本量略少于100k。 4. `human_handwrite`:小型真实手写体数据集,更贴近人类在电子屏幕上的手写输入习惯,数据主要源自`CROHME`数据集,且已通过LaTeX抽象语法树完成有效性校验。 5. `human_handwrite_print`:印刷体衍生数据集,该子集的公式内容与`human_handwrite`完全一致,配套图片均通过LaTeX渲染生成。 ## 使用 ### 加载训练集 - `subset_name` 参数可选值为:`small`、`full`、`synthetic_handwrite`、`human_handwrite`、`human_handwrite_print` - `split` 参数可选值为:`train`、`validation`、`test` python >>> from modelscope import MsDataset >>> train_dataset = MsDataset.load("AI-ModelScope/LaTeX_OCR", subset_name="small", split="train") >>> train_dataset[2] {'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50 at 0x15A5D6CE210>, 'text': '\rho _ { L } ( q ) = \sum _ { m = 1 } ^ { L } \ P _ { L } ( m ) \ { \frac { 1 } { q ^ { m - 1 } } } .'} >>> len(train_dataset) 50 # 备注:默认子集为full,加载full时可省略subset_name参数: >>> ds = MsDataset.load("AI-ModelScope/LaTeX_OCR", split="train") ### 加载全量数据集 python >>> from modelscope import MsDataset >>> dataset = MsDataset.load('AI-ModelScope/LaTeX_OCR', subset_name='small') >>> dataset DatasetDict({ train: Dataset({ features: ['image', 'text'], num_rows: 50 }) validation: Dataset({ features: ['image', 'text'], num_rows: 30 }) test: Dataset({ features: ['image', 'text'], num_rows: 30 }) })
提供机构:
maas
创建时间:
2024-11-10
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LaTeX_OCR数据集是一个专为LaTeX公式识别设计的数据集,包含5个子集,覆盖印刷体和手写体公式,样本量从110条到100k不等。数据集来源于多个公开资源及自行构建,适用于测试和训练OCR模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作