Typography-MNIST (TMNIST)

Name: Typography-MNIST (TMNIST)
Creator: 东北大学
Published: 2022-02-13 05:01:39
License: 暂无描述

arXiv2022-02-13 更新2024-06-21 收录

下载链接：

https://github.com/aiskunks/CognitiveType

下载链接

链接失效反馈

官方服务：

资源简介：

Typography-MNIST（TMNIST）是一个包含565,292张灰度图像的数据集，这些图像代表了1,812个独特的字形，涵盖了1,355种Google字体风格。数据集来源于超过150种现代和历史语言脚本，旨在通过认知类型项目开发眼动追踪工具，以实时映射字体到认知，并创建具有可读性等认知属性的字体设计计算工具。数据集通过特定的转换流程生成，每张图像均为标准的28x28像素大小，适用于字体和字形分类任务的研究。

Typography-MNIST (TMNIST) is a dataset containing 565,292 grayscale images. These images represent 1,812 unique glyphs spanning 1,355 Google Font styles. The dataset is sourced from over 150 modern and historical language scripts, and was developed for the Cognitive Type Project. The project aims to develop real-time eye-tracking tools for mapping fonts to cognitive processes, as well as computational tools for designing fonts with cognitive attributes such as readability. The dataset is generated via a specific transformation pipeline, with each image standardized to a 28×28 pixel size, making it suitable for research on font and glyph classification tasks.

提供机构：

东北大学

创建时间：

2022-02-13

搜集汇总

数据集介绍

构建方式

在字体识别与字形分类的研究领域，Typography-MNIST（TMNIST）数据集的构建遵循了经典MNIST数据集的预处理范式，旨在为算法测试提供标准化图像资源。该数据集基于1,355种Google字体文件，通过自动化流程生成灰度图像：首先导入字体文件并验证字形可配置性，随后在白色画布上以黑色渲染字形，转换为灰度并反转像素值，接着裁剪字形部分并调整至20×20尺寸，最后通过零填充与中心化处理，将图像统一规范为28×28像素。这一流程确保了图像在尺寸与布局上与MNIST保持一致，同时涵盖了1,812个独特字形，覆盖了150余种现代与历史语言脚本及符号集。

特点

Typography-MNIST数据集的核心特点在于其丰富的类别多样性与结构化设计。相较于传统MNIST仅包含10类手写数字，TMNIST引入了字形标签与字体样式双重分类维度，涵盖1,812个字形类别与1,355种字体风格，从而构成了更具挑战性的分类任务。数据集以CSV格式存储，首列标注字体样式，次列记录字形标签，后续786列则对应28×28图像的像素值，这种结构便于直接用于机器学习模型的输入。此外，数据集还提供了专注于数字（0-9）与拉丁字母的子集，支持研究者在不同复杂度任务中进行灵活选择，并通过手动验证与分类实验确保了数据的可靠性与实用性。

使用方法

Typography-MNIST数据集适用于字体风格识别、字形分类及跨语言字符分析等计算视觉任务。研究者可直接从公开存储库获取CSV格式文件，利用像素值列重构灰度图像，并结合字体与字形标签进行监督学习训练。数据集的标准尺寸与预处理特性使其能够无缝集成于现有深度学习框架，例如用于卷积神经网络的基准测试或迁移学习实验。对于特定研究需求，用户可进一步应用弹性变形等数据增强技术，或专注于子集以简化任务复杂度。该资源为探索字体认知属性（如可读性）与开发实时眼动追踪工具提供了基础数据支持。

背景与挑战

背景概述

Typography-MNIST（TMNIST）数据集于2022年由Northeastern University的研究人员Nimish Magre与Nicholas Brown共同创建，作为Cognitive Type项目的重要组成部分。该数据集旨在为字体与字形分类任务提供标准化基准，其设计灵感源于经典的MNIST手写数字数据集，继承了其28×28灰度图像格式与预处理流程。TMNIST涵盖了来自1,355种Google字体中的1,812个独特字形，涉及超过150种现代与历史语言字符及符号，核心研究问题聚焦于通过计算模型探索字体风格与字形结构对认知属性（如可读性）的影响，为字体设计、光学字符识别及多语言文本处理领域提供了关键数据支撑。

当前挑战

在领域问题层面，TMNIST致力于解决字体风格与字形分类中的复杂挑战，其类别数量远超MNIST与EMNIST，涵盖多样化的字形变体与字体形态，对模型的泛化能力与特征提取精度提出了更高要求。构建过程中，研究人员面临多重困难：由于Google字体网站禁止网络爬取，且缺乏完整的字形配置列表，需手动收集并整合1,355种字体的字形样本；同时，数据生成流程需严格模拟MNIST的标准化处理，包括字形居中、尺寸调整与灰度转换，以确保数据一致性与可比性。这些挑战凸显了大规模多语言字体数据集构建的技术复杂性。

常用场景

经典使用场景

在字体识别与字形分类领域，Typography-MNIST（TMNIST）数据集为研究者提供了一个标准化的基准测试平台。该数据集通过模拟MNIST的数据格式，包含来自1,355种Google字体的1,812个独特字形，以28×28灰度图像呈现。其经典使用场景主要集中在深度学习模型的训练与评估上，尤其是针对多类别分类任务，如字体风格识别和字形区分。由于TMNIST引入了远超MNIST的类别数量，它在测试模型对复杂视觉模式的泛化能力方面展现出显著优势，成为字体与符号识别研究中不可或缺的工具。

解决学术问题

TMNIST数据集有效解决了字体与字形分类研究中的若干关键学术问题。传统上，字体识别研究常受限于数据稀缺或格式不统一，而TMNIST通过提供大规模、结构化的字形图像，促进了算法在跨语言符号集上的性能比较。它特别有助于探索深度学习模型在高维度类别空间中的表现，例如如何处理来自150多种现代与历史语言脚本的字符变体。此外，该数据集支持对认知属性（如可读性）的计算分析，为计算排版学与认知科学的交叉研究奠定了数据基础。

衍生相关工作

TMNIST数据集已衍生出若干经典研究工作，拓展了其在计算机视觉与排版学中的影响力。例如，研究者利用其子集TMNIST-Digit和TMNIST-Alphabet，开发了针对数字与字母的轻量级分类模型，这些模型在嵌入式设备上实现了高效字体识别。另有工作结合弹性形变技术对数据集进行增强，提升了模型对字体风格细微变化的鲁棒性。此外，TMNIST为‘认知类型’项目提供了核心数据，催生了基于眼动追踪的字体认知映射工具，促进了排版设计与人类认知交互的量化研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集