HASYv2
收藏arXiv2017-01-29 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.259444
下载链接
链接失效反馈官方服务:
资源简介:
HASYv2数据集是由Karlsruhe Institute of Technology创建的公开免费手写符号数据集,类似于MNIST。该数据集包含168,233个实例,涵盖369个类别,包括阿拉伯数字和拉丁字符等。数据集的创建过程涉及从HWRT数据集转换,并通过手动检查确保质量。HASYv2适用于训练非草书手写文档的语义分割模型,如数学笔记或表格,旨在解决手写符号识别的挑战。
The HASYv2 dataset is a publicly accessible and free handwritten symbol dataset developed by Karlsruhe Institute of Technology, which is analogous to the MNIST dataset. It contains 168,233 instances across 369 categories, including Arabic numerals, Latin characters and other related symbol types. The dataset was constructed by converting data from the HWRT dataset, with its quality ensured through manual inspection. The HASYv2 dataset is suitable for training semantic segmentation models for non-cursive handwritten documents such as mathematical notes or tables, and it aims to address the challenges associated with handwritten symbol recognition.
提供机构:
Karlsruhe Institute of Technology
创建时间:
2017-01-29
搜集汇总
数据集介绍

构建方式
HASYv2数据集的构建始于HWRT数据集,这是一个在线识别数据集,包含手写符号的点序列。HASYv2通过将HWRT数据集中的每个符号的边界框缩放到32px并居中于32px×32px的框内,将点序列转换为黑白图像。HWRT数据集由Detexify和write-math.com两个项目收集,用户在这些平台上绘制符号,网站则提供可能的LaTeX命令。数据收集后,Martin Thoma对每个符号进行了人工检查,以确保标签的正确性。
特点
HASYv2数据集包含369个类别,包括拉丁字母(大小写)、阿拉伯数字、箭头、分式和草书拉丁字母、括号等。数据集共有168233个32px×32px的黑白图像,每个图像都有一个对应的标签。HASYv2数据集的特点是类别数量多,但每个类别的样本数量较少,这对于某些类别的模型训练和评估可能是一个挑战。此外,数据集的分辨率较低,且为黑白图像,这可能导致某些符号难以区分。
使用方法
使用HASYv2数据集时,首先需要将其解压缩,并加载图像和标签。数据集可以用于训练和评估各种分类模型,包括卷积神经网络(CNN)。HASYv2数据集提供了10个预定义的折叠,用于10折交叉验证,以评估模型的准确性和稳定性。此外,数据集还提供了一个验证挑战,用于测试模型识别新符号的能力。在使用数据集时,需要遵循数据集的ODbL许可协议,并在出版物中引用相关论文。
背景与挑战
背景概述
在计算机视觉领域,公开可用的数据集对于算法比较和应用开发至关重要。HASYv2数据集便是这样一项资源,它是由马丁·托马(Martin Thoma)于2017年创建的,旨在提供一个包含单符号的手写数据集,类似于著名的MNIST数据集。HASYv2数据集包含369个类别的168,233个实例,涵盖了阿拉伯数字、拉丁字母以及其他符号,如箭头和分数。该数据集的创建不仅提供了用于分类任务的训练和评估模型,而且为非草书手写文档的语义分割提供了可能的应用场景。
当前挑战
HASYv2数据集面临着一些挑战。首先,与MNIST数据集相比,HASYv2的类别数量更多,每个类别的样本数量较少,这给分类任务带来了困难。其次,数据集中的符号分辨率较低,且为黑白图像,这可能影响了模型的识别精度。此外,HASYv2数据集的构建过程中,由于合并了HWRT和write-math.com两个项目的数据,导致数据质量参差不齐,存在一些创意性的记录和松散的关联,需要通过人工检查来确保标签的正确性。最后,数据集在类间分布不均,有些类别的样本数量很少,这可能会影响模型的泛化能力。
常用场景
经典使用场景
HASYv2数据集是手写符号识别领域的经典数据集,常用于训练和评估模型对手写符号的识别能力。其包含369类手写符号,包括阿拉伯数字、拉丁字母等,为研究人员提供了丰富的数据资源。HASYv2数据集具有10个预定义的折叠,用于10倍交叉验证,以及一个验证挑战,使得研究人员可以更全面地评估模型的性能。
解决学术问题
HASYv2数据集解决了手写符号识别领域中数据集规模小、类别单一的问题。相较于MNIST数据集,HASYv2数据集包含更多类别,且每个类别的数据量更少,这更贴近实际应用场景。此外,HASYv2数据集还包含了验证挑战,为研究人员提供了额外的测试场景。HASYv2数据集的提出,为手写符号识别领域的研究提供了新的数据资源,推动了该领域的发展。
衍生相关工作
HASYv2数据集的提出,衍生出了一系列相关研究工作。例如,基于HASYv2数据集的卷积神经网络(CNN)模型,在手写符号识别任务中取得了较好的性能。此外,HASYv2数据集还被用于研究不同类别的手写符号识别难度,为后续研究提供了参考。这些相关研究工作的开展,进一步推动了手写符号识别领域的发展。
以上内容由遇见数据集搜集并总结生成



