detypify-datasets

Hugging Face2026-01-24 更新2026-01-25 收录

下载链接：

https://huggingface.co/datasets/Cloud0310/detypify-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个子数据集：detexify和mathwriting。detexify数据集包含手写符号的训练数据，数据格式为笔画序列，来源于detexify-data项目。mathwriting数据集包含从Google Research的MathWriting项目中提取的手写符号数据。数据集主要用于手写符号识别任务。

创建时间：

2026-01-19

原始信息汇总

数据集概述

基本信息

数据集名称: Cloud0310/detypify-datasets
主要用途: 为 Detypify 项目提供训练数据
主要代码库: https://github.com/QuarticCat/detypify

数据集配置与结构

本数据集包含两个独立的配置（config）。

配置一：detexify

数据描述: 包含来自 detexify 的训练数据集。
原始数据来源: https://github.com/kirel/detexify-data
原始数据下载链接: https://drive.google.com/drive/folders/0ByuYordD0JBRWXUxRlhEMGtfVVE?resourcekey=0-rYksj_Cs11AMqko9p5swdg&usp=sharing
特征（Features）:
- label: 类型为 large_string。
- strokes: 类型为大型列表的嵌套结构（large_list of large_list of float32）。
数据分割（Splits）:
- train: 114,781 个样本，大小约 272.5 MB。
- test: 14,351 个样本，大小约 33.8 MB。
- val: 14,156 个样本，大小约 33.6 MB。
体积信息:
- 下载大小: 75,478,231 字节。
- 数据集总大小: 339,888,361 字节。

配置二：mathwriting

数据描述: 包含从 MathWriting 数据集中提取的数据。
原始数据描述页面: https://github.com/google-research/google-research/tree/master/mathwriting
原始数据下载链接: https://storage.googleapis.com/mathwriting_data/mathwriting-2024.tgz
特征（Features）:
- label: 类型为 large_string。
- strokes: 类型为大型列表的嵌套结构（large_list of list of float32），内部列表长度为2。
数据分割（Splits）:
- train: 2,675 个样本，大小约 1.2 MB。
- test: 333 个样本，大小约 148.5 KB。
- val: 277 个样本，大小约 123.1 KB。
体积信息:
- 下载大小: 1,544,261 字节。
- 数据集总大小: 1,470,154 字节。

数据格式

样本以 Strokes 类型存储，其结构定义如下： python type Point = tuple[float, float] type Stroke = list[Point] type Strokes = list[Stroke]

许可证信息

detexify 配置数据采用 odbl 许可证。
mathwriting 配置数据采用 cc-by-nc-sa-4.0 许可证。

搜集汇总

数据集介绍

构建方式

在数学符号识别领域，数据集的构建通常依赖于众包平台与开源社区的协作。Detypify数据集整合了两个独立来源：Detexify子集源自同名在线工具的众包标注数据，通过PostgreSQL数据库导出为结构化JSON格式；MathWriting 2024子集则提取自谷歌研究团队发布的数学手写数据集，仅保留符号标注部分。两个子集均经过统一预处理流程，将原始笔迹坐标序列转换为标准化的三层嵌套列表结构，确保数据格式的一致性。

使用方法

使用本数据集需通过GitHub主仓库获取预处理脚本，在配置Python环境后执行数据转换流程。研究者可直接加载HuggingFace平台提供的预处理版本，通过指定config_name参数选择Detexify或MathWriting子集。数据以分片压缩格式存储，支持流式加载以降低内存开销。典型应用场景包括训练端到端符号分类器、笔迹生成模型或进行跨数据集泛化能力评估，预处理脚本中的坐标归一化步骤为模型输入标准化提供了必要基础。

背景与挑战

背景概述

Detypify-datasets 是一个专注于手写数学符号识别的数据集集合，由开源社区的研究者于2024年前后整合构建。该数据集融合了经典的Detexify数据集与新兴的MathWriting 2024数据集，旨在为手写数学表达式识别领域提供丰富的训练资源。其核心研究问题在于解决数学文档数字化过程中，复杂手写符号的准确分类与识别难题，尤其关注基于笔触序列的符号表示方法。该数据集的建立显著推动了数学光学字符识别（Math OCR）与智能教育工具的发展，为相关算法模型提供了标准化的评估基准。

当前挑战

该数据集旨在应对手写数学符号识别的核心挑战，即如何从多样化的个人笔迹风格中，准确识别出大量结构复杂且视觉相似的数学符号，例如区分不同变体的希腊字母或运算符号。在构建过程中，挑战主要源于多源数据的整合与标准化：Detexify与MathWriting数据集在采集协议、笔触数据格式以及符号标注体系上存在差异，需要进行精细的数据清洗、格式统一与标签映射，以确保合并后数据集的一致性与可用性。此外，处理大规模笔触序列数据对存储与计算效率也提出了较高要求。

常用场景

解决学术问题

该数据集有效解决了手写数学符号识别中的若干核心学术问题，包括符号的多样性表达、笔画时序建模以及跨数据源的泛化挑战。通过整合Detexify和MathWriting两个来源的数据，它提供了丰富的样本覆盖，支持研究者在符号分类、序列到序列翻译等任务上进行探索。其意义在于推动了数学文档处理技术的进步，为自动化数学内容理解提供了可靠的数据支撑，促进了人机交互与计算数学的交叉研究。

实际应用

在实际应用中，detypify-datasets为数学软件和在线教育平台赋能，实现了手写数学符号的即时识别与转换。例如，在智能笔记应用或数学辅助工具中，用户可通过手绘输入符号，系统利用基于该数据集训练的模型快速生成LaTeX代码，简化公式编辑流程。这种技术不仅提升了学术写作效率，还支持无障碍学习环境，帮助视觉障碍者或数学学习者更便捷地参与数学内容创作。

数据集最近研究