typst-image-dataset

Hugging Face2025-11-22 更新2025-11-23 收录

下载链接：

https://huggingface.co/datasets/JeppeKlitgaard/typst-image-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Typst图像数据集是一个包含LaTeX标签和方程图像的数据集。它由tex2typ的一个分支和hoang-quoc-trung/fusion-image-to-latex-datasets数据集生成，旨在提供更高效的随机读取访问和修复文件名损坏问题。数据集使用WebDataset格式方便存储图像文件和元数据，并明确定义了图像、LaTeX代码、typst代码等数据特征。

创建时间：

2025-11-21

原始信息汇总

Typst Image Dataset 数据集概述

基本信息

许可证: Apache-2.0
标签: 数学、OCR、Typst、LaTeX
数据规模: 100万到1000万个样本

数据来源

基于 hoang-quoc-trung/fusion-image-to-latex-datasets 数据集生成
使用 tex2typ 的分支版本生成

数据格式

采用 WebDataset 格式存储
包含以下特征字段：
- input_image: 输入图像
- latex: LaTeX 字符串
- typst: Typst 字符串
- typst_image: Typst 渲染图像
- metadata.json: 元数据
  - image_type: 图像类型（手写/印刷）
  - image_extension: 图像格式（png/jpg/bmp/dvi）

技术细节

Typst 图像使用 Typst 0.14 渲染
渲染参数：PNG格式，120.0 ppi
使用模板和默认字体
渲染模板： typ #set page(width: auto, height: auto, margin: 0pt) $ {typst_code} $

改进特点

修复了原始数据集中的损坏文件名问题
提供更高效的数据访问方式
包含渲染后的Typst图像用于训练评估

代码仓库

生成代码位于：https://github.com/JeppeKlitgaard/DTU-02456-Deep-Learning-Project

搜集汇总

数据集介绍

构建方式

在数学公式识别领域，数据集的构建质量直接影响模型性能。Typst Image Dataset基于融合图像转LaTeX数据集的标注信息，通过改进的tex2typ转换工具将原始LaTeX公式批量转化为Typst标记语言。为解决原始数据存储格式导致的访问效率问题，研究团队采用WebDataset架构重新组织图像与元数据，并修复了原始档案中损坏的文件命名结构，最终形成包含百万级样本的标准化数据集。

特点

该数据集在数学公式多模态表示方面具有显著特色，同时提供公式的原始图像、LaTeX源码和Typst标记三种对齐表示。特别值得关注的是包含通过Typst 0.14引擎渲染的标准PNG图像，其固定120ppi分辨率与预设排版模板确保了渲染结果的可复现性。数据集通过精细的元数据标注区分手写与印刷体公式，并记录原始图像格式信息，为跨模态对比研究提供坚实基础。

使用方法

使用本数据集时需注意其特殊的特征结构定义，由于采用非标准文件扩展名存储，需显式指定特征类型包括图像字段、字符串标签及元数据分类。研究人员可通过对比输入图像与Typst渲染图像的像素级差异构建损失函数，如交并比度量。典型应用场景包括训练端到端的公式识别模型，或开发LaTeX与Typst标记语言间的转换系统，但需保持渲染引擎版本与参数设置的一致性。

背景与挑战

背景概述

在科学文档数字化处理领域，公式识别长期依赖LaTeX系统，而新兴排版语言Typst因其现代化设计逐渐受到关注。Typst Image Dataset由丹麦技术大学研究人员于2024年创建，基于开源工具tex2typ对融合图像转LaTeX数据集进行格式转换，旨在构建首个大规模Typst公式图像语料库。该数据集通过系统化整合手写与印刷体公式图像及其对应标记语言表示，为跨模态文档理解研究提供了重要基础设施，推动了排版语言生态的多元化发展。

当前挑战

该数据集致力于解决数学公式光学字符识别的核心难题，包括复杂符号的语义消歧、多尺度排版结构的空间关系建模，以及手写体与印刷体公式的跨域泛化问题。在构建过程中面临原始数据归档格式导致的随机读取效率瓶颈，需通过WebDataset重构存储架构；同时应对源数据中文件损坏与扩展名不规范等数据质量问题，并克服HuggingFace平台对非标准WebDataset格式的兼容性限制，确保像素级渲染一致性验证机制的可靠性。

常用场景

经典使用场景

在数学公式识别领域，Typst Image Dataset为跨模态转换任务提供了标准化基准。该数据集通过将LaTeX公式图像与对应的Typst代码配对，构建了从视觉表征到结构化文本的映射关系，特别适用于训练端到端的数学公式识别模型。研究者可基于此数据集开发能够理解复杂数学符号布局的深度学习架构，推动公式识别技术向更高精度发展。

实际应用

在学术出版与教育科技领域，该数据集支撑的公式识别技术已产生实际价值。智能教学系统可借助该技术实时解析手写数学作业，数字出版平台能自动将扫描文档中的公式转换为可编辑格式。这种能力极大提升了教育资源的数字化效率，同时为视障人士提供了通过语音交互理解复杂公式的创新途径。

衍生相关工作

基于该数据集衍生的研究已形成系列创新成果。部分工作专注于改进Transformer架构在公式识别中的跨模态对齐能力，另一些研究则探索了对抗训练在提升渲染图像质量中的应用。这些工作不仅推动了端到端公式识别模型的发展，还催生了新型评估指标的设计，为后续研究建立了坚实的技术基线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集