five

detypify-datasets

收藏
Hugging Face2026-01-24 更新2026-01-25 收录
下载链接:
https://huggingface.co/datasets/Cloud0310/detypify-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个子数据集:detexify和mathwriting。detexify数据集包含手写符号的训练数据,数据格式为笔画序列,来源于detexify-data项目。mathwriting数据集包含从Google Research的MathWriting项目中提取的手写符号数据。数据集主要用于手写符号识别任务。
创建时间:
2026-01-19
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Cloud0310/detypify-datasets
  • 主要用途: 为 Detypify 项目提供训练数据
  • 主要代码库: https://github.com/QuarticCat/detypify

数据集配置与结构

本数据集包含两个独立的配置(config)。

配置一:detexify

  • 数据描述: 包含来自 detexify 的训练数据集。
  • 原始数据来源: https://github.com/kirel/detexify-data
  • 原始数据下载链接: https://drive.google.com/drive/folders/0ByuYordD0JBRWXUxRlhEMGtfVVE?resourcekey=0-rYksj_Cs11AMqko9p5swdg&usp=sharing
  • 特征(Features):
    • label: 类型为 large_string。
    • strokes: 类型为大型列表的嵌套结构(large_list of large_list of float32)。
  • 数据分割(Splits):
    • train: 114,781 个样本,大小约 272.5 MB。
    • test: 14,351 个样本,大小约 33.8 MB。
    • val: 14,156 个样本,大小约 33.6 MB。
  • 体积信息:
    • 下载大小: 75,478,231 字节。
    • 数据集总大小: 339,888,361 字节。

配置二:mathwriting

  • 数据描述: 包含从 MathWriting 数据集中提取的数据。
  • 原始数据描述页面: https://github.com/google-research/google-research/tree/master/mathwriting
  • 原始数据下载链接: https://storage.googleapis.com/mathwriting_data/mathwriting-2024.tgz
  • 特征(Features):
    • label: 类型为 large_string。
    • strokes: 类型为大型列表的嵌套结构(large_list of list of float32),内部列表长度为2。
  • 数据分割(Splits):
    • train: 2,675 个样本,大小约 1.2 MB。
    • test: 333 个样本,大小约 148.5 KB。
    • val: 277 个样本,大小约 123.1 KB。
  • 体积信息:
    • 下载大小: 1,544,261 字节。
    • 数据集总大小: 1,470,154 字节。

数据格式

样本以 Strokes 类型存储,其结构定义如下: python type Point = tuple[float, float] type Stroke = list[Point] type Strokes = list[Stroke]

许可证信息

  • detexify 配置数据采用 odbl 许可证。
  • mathwriting 配置数据采用 cc-by-nc-sa-4.0 许可证。
搜集汇总
数据集介绍
main_image_url
构建方式
在数学符号识别领域,数据集的构建通常依赖于众包平台与开源社区的协作。Detypify数据集整合了两个独立来源:Detexify子集源自同名在线工具的众包标注数据,通过PostgreSQL数据库导出为结构化JSON格式;MathWriting 2024子集则提取自谷歌研究团队发布的数学手写数据集,仅保留符号标注部分。两个子集均经过统一预处理流程,将原始笔迹坐标序列转换为标准化的三层嵌套列表结构,确保数据格式的一致性。
使用方法
使用本数据集需通过GitHub主仓库获取预处理脚本,在配置Python环境后执行数据转换流程。研究者可直接加载HuggingFace平台提供的预处理版本,通过指定config_name参数选择Detexify或MathWriting子集。数据以分片压缩格式存储,支持流式加载以降低内存开销。典型应用场景包括训练端到端符号分类器、笔迹生成模型或进行跨数据集泛化能力评估,预处理脚本中的坐标归一化步骤为模型输入标准化提供了必要基础。
背景与挑战
背景概述
Detypify-datasets 是一个专注于手写数学符号识别的数据集集合,由开源社区的研究者于2024年前后整合构建。该数据集融合了经典的Detexify数据集与新兴的MathWriting 2024数据集,旨在为手写数学表达式识别领域提供丰富的训练资源。其核心研究问题在于解决数学文档数字化过程中,复杂手写符号的准确分类与识别难题,尤其关注基于笔触序列的符号表示方法。该数据集的建立显著推动了数学光学字符识别(Math OCR)与智能教育工具的发展,为相关算法模型提供了标准化的评估基准。
当前挑战
该数据集旨在应对手写数学符号识别的核心挑战,即如何从多样化的个人笔迹风格中,准确识别出大量结构复杂且视觉相似的数学符号,例如区分不同变体的希腊字母或运算符号。在构建过程中,挑战主要源于多源数据的整合与标准化:Detexify与MathWriting数据集在采集协议、笔触数据格式以及符号标注体系上存在差异,需要进行精细的数据清洗、格式统一与标签映射,以确保合并后数据集的一致性与可用性。此外,处理大规模笔触序列数据对存储与计算效率也提出了较高要求。
常用场景
解决学术问题
该数据集有效解决了手写数学符号识别中的若干核心学术问题,包括符号的多样性表达、笔画时序建模以及跨数据源的泛化挑战。通过整合Detexify和MathWriting两个来源的数据,它提供了丰富的样本覆盖,支持研究者在符号分类、序列到序列翻译等任务上进行探索。其意义在于推动了数学文档处理技术的进步,为自动化数学内容理解提供了可靠的数据支撑,促进了人机交互与计算数学的交叉研究。
实际应用
在实际应用中,detypify-datasets为数学软件和在线教育平台赋能,实现了手写数学符号的即时识别与转换。例如,在智能笔记应用或数学辅助工具中,用户可通过手绘输入符号,系统利用基于该数据集训练的模型快速生成LaTeX代码,简化公式编辑流程。这种技术不仅提升了学术写作效率,还支持无障碍学习环境,帮助视觉障碍者或数学学习者更便捷地参与数学内容创作。
数据集最近研究
最新研究方向
在数学符号识别领域,Detypify数据集整合了Detexify和MathWriting 2024两大来源,为手写数学符号的在线识别提供了关键训练资源。当前研究聚焦于利用该数据集提升深度神经网络对复杂笔迹轨迹的解析能力,特别是在跨符号类别泛化与实时交互应用方面。随着教育科技和智能文档处理的兴起,该数据集支持了符号识别模型在移动设备与网页插件中的部署,推动了数学表达式编辑的智能化进程,对学术交流与数字化学习产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作