five

linxy/LaTeX_OCR

收藏
Hugging Face2024-06-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/linxy/LaTeX_OCR
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 dataset_info: - config_name: full features: - name: image dtype: image - name: text dtype: string splits: - name: train num_bytes: 392478490.025 num_examples: 76319 - name: validation num_bytes: 43364061.55 num_examples: 8475 - name: test num_bytes: 47643036.303 num_examples: 9443 download_size: 473618552 dataset_size: 483485587.878 - config_name: human_handwrite features: - name: image dtype: image - name: text dtype: string splits: - name: train num_bytes: 16181778 num_examples: 1200 - name: validation num_bytes: 962283 num_examples: 68 - name: test num_bytes: 906906 num_examples: 70 download_size: 18056029 dataset_size: 18050967 - config_name: human_handwrite_print features: - name: image dtype: image - name: text dtype: string splits: - name: train num_bytes: 3152122.8 num_examples: 1200 - name: validation num_bytes: 182615 num_examples: 68 - name: test num_bytes: 181698 num_examples: 70 download_size: 1336052 dataset_size: 3516435.8 - config_name: small features: - name: image dtype: image - name: text dtype: string splits: - name: train num_bytes: 261296 num_examples: 50 - name: validation num_bytes: 156489 num_examples: 30 - name: test num_bytes: 156489 num_examples: 30 download_size: 588907 dataset_size: 574274 - config_name: synthetic_handwrite features: - name: image dtype: image - name: text dtype: string splits: - name: train num_bytes: 496610333.066 num_examples: 76266 - name: validation num_bytes: 63147351.515 num_examples: 9565 - name: test num_bytes: 62893132.805 num_examples: 9593 download_size: 616418996 dataset_size: 622650817.3859999 configs: - config_name: full data_files: - split: train path: full/train-* - split: validation path: full/validation-* - split: test path: full/test-* - config_name: human_handwrite data_files: - split: train path: human_handwrite/train-* - split: validation path: human_handwrite/validation-* - split: test path: human_handwrite/test-* - config_name: human_handwrite_print data_files: - split: train path: human_handwrite_print/train-* - split: validation path: human_handwrite_print/validation-* - split: test path: human_handwrite_print/test-* - config_name: small data_files: - split: train path: small/train-* - split: validation path: small/validation-* - split: test path: small/test-* - config_name: synthetic_handwrite data_files: - split: train path: synthetic_handwrite/train-* - split: validation path: synthetic_handwrite/validation-* - split: test path: synthetic_handwrite/test-* task_categories: - image-to-text tags: - code size_categories: - 100K<n<1M --- # LaTeX OCR 的数据仓库 本数据仓库是专为 [LaTeX_OCR](https://github.com/LinXueyuanStdio/LaTeX_OCR) 及 [LaTeX_OCR_PRO](https://github.com/LinXueyuanStdio/LaTeX_OCR) 制作的数据,来源于 `https://zenodo.org/record/56198#.V2p0KTXT6eA` 以及 `https://www.isical.ac.in/~crohme/` 以及我们自己构建。 如果这个数据仓库有帮助到你的话,请点亮 ❤️like ++ 后续追加新的数据也会放在这个仓库 ~~ > 原始数据仓库在github [LinXueyuanStdio/Data-for-LaTeX_OCR](https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR). ## 数据集 本仓库有 5 个数据集 1. `small` 是小数据集,样本数 110 条,用于测试 2. `full` 是印刷体约 100k 的完整数据集。实际上样本数略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。 3. `synthetic_handwrite` 是手写体 100k 的完整数据集,基于 `full` 的公式,使用手写字体合成而来,可以视为人类在纸上的手写体。样本数实际上略小于 100k,理由同上。 4. `human_handwrite` 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 `CROHME`。我们用 LaTeX 的抽象语法树校验过了。 5. `human_handwrite_print` 是来自 `human_handwrite` 的印刷体数据集,公式部分和 `human_handwrite` 相同,图片部分由公式用 LaTeX 渲染而来。 ## 使用 加载训练集 - name 可选 small, full, synthetic_handwrite, human_handwrite, human_handwrite_print - split 可选 train, validation, test ```python >>> from datasets import load_dataset >>> train_dataset = load_dataset("linxy/LaTeX_OCR", name="small", split="train") >>> train_dataset[2]["text"] \rho _ { L } ( q ) = \sum _ { m = 1 } ^ { L } \ P _ { L } ( m ) \ { \frac { 1 } { q ^ { m - 1 } } } . >>> train_dataset[2] {'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50 at 0x15A5D6CE210>, 'text': '\\rho _ { L } ( q ) = \\sum _ { m = 1 } ^ { L } \\ P _ { L } ( m ) \\ { \\frac { 1 } { q ^ { m - 1 } } } .'} >>> len(train_dataset) 50 ``` 加载所有 ```python >>> from datasets import load_dataset >>> dataset = load_dataset("linxy/LaTeX_OCR", name="small") >>> dataset DatasetDict({ train: Dataset({ features: ['image', 'text'], num_rows: 50 }) validation: Dataset({ features: ['image', 'text'], num_rows: 30 }) test: Dataset({ features: ['image', 'text'], num_rows: 30 }) }) ```

许可证:Apache-2.0 数据集信息: - 配置项:full 特征: - 图像(image):数据类型为图像 - 文本(text):数据类型为字符串 划分集: - 训练集(train):数据字节数392478490.025,样本数76319 - 验证集(validation):数据字节数43364061.55,样本数8475 - 测试集(test):数据字节数47643036.303,样本数9443 下载大小:473618552,数据集总大小:483485587.878 - 配置项:human_handwrite 特征: - 图像(image):数据类型为图像 - 文本(text):数据类型为字符串 划分集: - 训练集(train):数据字节数16181778,样本数1200 - 验证集(validation):数据字节数962283,样本数68 - 测试集(test):数据字节数906906,样本数70 下载大小:18056029,数据集总大小:18050967 - 配置项:human_handwrite_print 特征: - 图像(image):数据类型为图像 - 文本(text):数据类型为字符串 划分集: - 训练集(train):数据字节数3152122.8,样本数1200 - 验证集(validation):数据字节数182615,样本数68 - 测试集(test):数据字节数181698,样本数70 下载大小:1336052,数据集总大小:3516435.8 - 配置项:small 特征: - 图像(image):数据类型为图像 - 文本(text):数据类型为字符串 划分集: - 训练集(train):数据字节数261296,样本数50 - 验证集(validation):数据字节数156489,样本数30 - 测试集(test):数据字节数156489,样本数30 下载大小:588907,数据集总大小:574274 - 配置项:synthetic_handwrite 特征: - 图像(image):数据类型为图像 - 文本(text):数据类型为字符串 划分集: - 训练集(train):数据字节数496610333.066,样本数76266 - 验证集(validation):数据字节数63147351.515,样本数9565 - 测试集(test):数据字节数62893132.805,样本数9593 下载大小:616418996,数据集总大小:622650817.3859999 配置项映射: - 配置项full:数据文件路径分别为full/train-*(训练集)、full/validation-*(验证集)、full/test-*(测试集) - 配置项human_handwrite:数据文件路径分别为human_handwrite/train-*(训练集)、human_handwrite/validation-*(验证集)、human_handwrite/test-*(测试集) - 配置项human_handwrite_print:数据文件路径分别为human_handwrite_print/train-*(训练集)、human_handwrite_print/validation-*(验证集)、human_handwrite_print/test-*(测试集) - 配置项small:数据文件路径分别为small/train-*(训练集)、small/validation-*(验证集)、small/test-*(测试集) - 配置项synthetic_handwrite:数据文件路径分别为synthetic_handwrite/train-*(训练集)、synthetic_handwrite/validation-*(验证集)、synthetic_handwrite/test-*(测试集) 任务类别:图像到文本(image-to-text) 标签:代码(code) 样本规模区间:100K < n < 1M # LaTeX OCR(LaTeX_OCR)数据集仓库 本数据集仓库专为LaTeX OCR(LaTeX_OCR)及LaTeX_OCR_PRO(LaTeX_OCR_PRO)打造,数据来源包括`https://zenodo.org/record/56198#.V2p0KTXT6eA`、`https://www.isical.ac.in/~crohme/`以及自主构建的数据集。 若本仓库对你的研究有所帮助,请点亮❤️点赞。后续新增数据也将上传至本仓库。 > 原始数据集仓库位于GitHub:[LinXueyuanStdio/Data-for-LaTeX_OCR](https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR)。 ## 数据集详情 本仓库共包含5个数据集: 1. `small`:小型测试数据集,总计110条样本,用于快速验证实验流程 2. `full`:完整印刷体数据集,样本规模约10万条。由于通过LaTeX抽象语法树剔除了无法正常渲染的LaTeX公式,实际样本数略少于10万 3. `synthetic_handwrite`:完整合成手写体数据集,基于`full`中的公式,通过手写字体合成生成,效果近似于纸质手写笔迹。同样因LaTeX语法校验,实际样本数略少于10万 4. `human_handwrite`:小型人类手写体数据集,更贴合电子屏幕上的真实手写笔迹,主要来源于CROHME(CROHME)数据集,所有样本均通过LaTeX抽象语法树完成校验 5. `human_handwrite_print`:基于`human_handwrite`生成的印刷体数据集,其对应的LaTeX公式与`human_handwrite`完全一致,图像部分通过LaTeX渲染生成。 ## 使用方法 加载训练集: - `name`参数可选值:small、full、synthetic_handwrite、human_handwrite、human_handwrite_print - `split`参数可选值:train、validation、test python >>> from datasets import load_dataset >>> train_dataset = load_dataset("linxy/LaTeX_OCR", name="small", split="train") >>> train_dataset[2]["text"] \rho _ { L } ( q ) = \sum _ { m = 1 } ^ { L } \ P _ { L } ( m ) \ { \frac { 1 } { q ^ { m - 1 } } } . >>> train_dataset[2] {'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50 at 0x15A5D6CE210>, 'text': '\rho _ { L } ( q ) = \sum _ { m = 1 } ^ { L } \ P _ { L } ( m ) \ { \frac { 1 } { q ^ { m - 1 } } } .'} >>> len(train_dataset) 50 加载全部分割集: python >>> from datasets import load_dataset >>> dataset = load_dataset("linxy/LaTeX_OCR", name="small") >>> dataset DatasetDict({ train: Dataset({ features: ['image', 'text'], num_rows: 50 }) validation: Dataset({ features: ['image', 'text'], num_rows: 30 }) test: Dataset({ features: ['image', 'text'], num_rows: 30 }) })
提供机构:
linxy
原始信息汇总

数据集概述

本数据集包含多个配置,每个配置具有不同的特征和数据划分。以下是各配置的详细信息:

配置详情

1. full

  • 特征:
    • image: 图像类型
    • text: 字符串类型
  • 数据划分:
    • train: 392478490.025 字节, 76319 个样本
    • validation: 43364061.55 字节, 8475 个样本
    • test: 47643036.303 字节, 9443 个样本
  • 下载大小: 473618552 字节
  • 数据集大小: 483485587.878 字节

2. human_handwrite

  • 特征:
    • image: 图像类型
    • text: 字符串类型
  • 数据划分:
    • train: 16181778 字节, 1200 个样本
    • validation: 962283 字节, 68 个样本
    • test: 906906 字节, 70 个样本
  • 下载大小: 18056029 字节
  • 数据集大小: 18050967 字节

3. human_handwrite_print

  • 特征:
    • image: 图像类型
    • text: 字符串类型
  • 数据划分:
    • train: 3152122.8 字节, 1200 个样本
    • validation: 182615 字节, 68 个样本
    • test: 181698 字节, 70 个样本
  • 下载大小: 1336052 字节
  • 数据集大小: 3516435.8 字节

4. small

  • 特征:
    • image: 图像类型
    • text: 字符串类型
  • 数据划分:
    • train: 261296 字节, 50 个样本
    • validation: 156489 字节, 30 个样本
    • test: 156489 字节, 30 个样本
  • 下载大小: 588907 字节
  • 数据集大小: 574274 字节

5. synthetic_handwrite

  • 特征:
    • image: 图像类型
    • text: 字符串类型
  • 数据划分:
    • train: 496610333.066 字节, 76266 个样本
    • validation: 63147351.515 字节, 9565 个样本
    • test: 62893132.805 字节, 9593 个样本
  • 下载大小: 616418996 字节
  • 数据集大小: 622650817.3859999 字节

数据集使用

数据集可以通过以下方式加载:

python from datasets import load_dataset

加载训练集

train_dataset = load_dataset("linxy/LaTeX_OCR", name="small", split="train")

加载所有数据

dataset = load_dataset("linxy/LaTeX_OCR", name="small")

搜集汇总
数据集介绍
main_image_url
构建方式
LaTeX OCR 数据集的构建基于对图像和对应 LaTeX 文本配对的方式,涵盖了从印刷体到手写体等多种书写风格的数学公式。数据集通过从不同来源汇集图像和文本,经过严格的筛选和校验,确保每个样本都能准确反映 LaTeX 公式的视觉表示和其文本描述。构建过程包括数据清洗、格式统一和抽象语法树校验等多个步骤,以保证数据质量和可用性。
特点
本数据集的特点在于其多样性、全面性和准确性。它包含了从小规模测试集到大规模训练集的不同规模配置,能够满足不同研究需求。数据集中的图像涵盖了从标准印刷体到模拟手写体,再到真实人类手写体,为模型训练提供了丰富的学习材料。每个图像都与 LaTeX 格式的文本精确对应,便于模型学习和评估。
使用方法
使用该数据集时,用户可以根据需求选择不同的配置,如 'small' 用于快速测试,'full' 提供了丰富的训练样本。通过 HuggingFace 的 datasets 库,用户可以轻松加载和访问数据集,支持多种数据处理和加载方式,如按比例划分训练集、验证集和测试集,以及按需加载特定样本。数据集的加载和预处理过程简单直观,便于研究者快速开展相关研究。
背景与挑战
背景概述
LaTeX OCR数据集,由LinXueyuanStdio构建,旨在推进数学公式识别领域的研究。该数据集的创建时间为近年,主要研究人员为LinXueyuanStdio团队,其核心研究问题是如何准确地将图像中的LaTeX格式数学公式转化为可编辑的文本形式。该数据集汇集了从Zenodo、ISICAL等多个来源的数据,并对数据进行了严格的抽象语法树校验,以剔除无法渲染的LaTeX公式,对相关领域产生了重要影响。
当前挑战
数据集在构建过程中遇到的挑战主要包括:如何确保数学公式的多样性和准确性,以及如何处理手写体与印刷体之间的差异。此外,数据集在解决图像到文本转换的领域问题中,面临的挑战是如何提高识别准确率,尤其是在手写体识别方面,以及如何优化算法以处理大量数据。
常用场景
经典使用场景
在光学字符识别(OCR)领域,linxy/LaTeX_OCR数据集的典型应用场景是训练深度学习模型,以实现对LaTeX格式数学公式的识别和转换。该数据集提供了大量的图像与对应的LaTeX文本,为模型提供了丰富的学习材料,从而在识别数学公式时,模型能够更加精确地理解和还原复杂的数学符号和结构。
实际应用
在实际应用中,linxy/LaTeX_OCR数据集的应用场景广泛,包括但不限于学术论文数字化、在线教育平台中数学公式的识别与展示、科研人员对学术资料的快速检索与重用等。它为各种OCR工具和应用程序提供了高质量的训练数据,从而提升了这些工具在实际使用中的准确性和可靠性。
衍生相关工作
linxy/LaTeX_OCR数据集的发布促进了相关领域的研究,衍生出了一系列经典工作。研究者基于该数据集,开发了多种高效的数学公式识别算法,并在各项评测中取得了显著成果。此外,该数据集还激发了更多关于OCR技术在数学公式识别上的创新研究,进一步拓宽了OCR技术的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作