CENSUS-HWR

Name: CENSUS-HWR
Creator: 杨百翰大学
Published: 2023-05-26 01:31:39
License: 暂无描述

arXiv2023-05-26 更新2024-06-21 收录

下载链接：

http://censustree.org/data.html

下载链接

链接失效反馈

官方服务：

资源简介：

CENSUS-HWR是一个大规模的离线手写识别训练数据集，由杨百翰大学创建。该数据集包含1,812,014张灰度图像，总计1,865,134个英文手写文本，词汇量为10,711个单词。数据集从美国1930年和1940年的人口普查中提取，由约70,000名普查员每年记录。创建过程中，数据集通过扫描和标注处理，确保了数据的质量和多样性。CENSUS-HWR旨在为深度学习算法提供一个基准，帮助研究者开发更鲁棒的手写识别模型，解决现实世界中手写文本识别的挑战。

CENSUS-HWR is a large-scale offline handwritten recognition training dataset created by Brigham Young University. It contains 1,812,014 grayscale images, totaling 1,865,134 handwritten English text instances, with a vocabulary of 10,711 distinct words. The dataset is extracted from the 1930 and 1940 U.S. Censuses, and was annually recorded by approximately 70,000 census enumerators. During its creation, the dataset was processed through scanning and annotation to ensure data quality and diversity. CENSUS-HWR aims to provide a benchmark for deep learning algorithms, helping researchers develop more robust handwritten recognition models to address the challenges of real-world handwritten text recognition.

提供机构：

杨百翰大学

创建时间：

2023-05-26

搜集汇总

数据集介绍

构建方式

在离线手写识别领域，数据集的构建往往依赖于精心设计的采集流程，而CENSUS-HWR数据集则独辟蹊径，从历史档案中挖掘真实笔迹。该数据集源自美国1910年、1930年和1940年的人口普查表格，这些表格由约七万名普查员手写完成，涵盖了数百万人的信息。通过结合尺度不变特征变换（SIFT）和随机抽样一致性（RANSAC）算法，研究团队从扫描的普查图像中精准定位并分割出表格单元格，提取出超过181万张灰度手写单词图像。随后，利用FamilySearch和Ancestry.com提供的人工转录数据，为每张图像匹配对应的文本标签，从而构建了一个大规模、自然手写的标注数据集。

使用方法

CENSUS-HWR数据集为手写识别模型的训练与评估提供了坚实的基准平台。研究人员可直接从公开网址下载数据集及预训练模型权重，利用其海量图像和对应标签进行深度学习算法的训练。数据集中的图像均为灰度格式，建议在预处理时统一缩放至固定尺寸（如64x512像素），并保持原始宽高比，以适配基于卷积神经网络和循环神经网络的模型架构。该数据集特别适用于训练端到端的识别系统，如结合连接时序分类（CTC）损失的模型，以处理单词级识别任务。此外，数据集附带的反向索引工具允许通过众包方式修正自动转录结果，为持续优化标注质量提供了协作框架。

背景与挑战

背景概述

在离线手写识别领域，长期以来缺乏大规模训练数据集，制约了深度学习模型的泛化能力。CENSUS-HWR数据集由杨百翰大学等机构的研究团队于2023年发布，旨在解决这一瓶颈。该数据集源自美国1930年和1940年人口普查档案，包含约181万张灰度手写单词图像，覆盖10711个英文词汇，由近7万名普查员书写而成。其核心研究问题在于为手写识别模型提供具有真实世界多样性的训练基准，显著提升了模型对历史文档中自然笔迹的适应能力，推动了手写识别技术在档案数字化和信息提取中的应用。

当前挑战

CENSUS-HWR数据集面临的挑战主要体现在两方面：其一，在领域问题层面，手写识别需应对真实历史文档中存在的笔迹扭曲、单词涂改、拼写错误及布局不规则等复杂噪声，传统清洁数据集难以模拟此类自然瑕疵；其二，在构建过程中，从原始普查图像提取文本面临技术难题，如文档退化、扫描伪影导致分割失败，需结合尺度不变特征变换与随机抽样一致性算法进行鲁棒对齐，同时标签依赖众包转录，虽提升效率但可能引入标注误差，需后续设计纠错机制以保证数据质量。

常用场景

经典使用场景

在离线手写识别领域，CENSUS-HWR数据集因其大规模和自然手写样本而成为经典基准。该数据集包含超过180万张灰度图像，覆盖了约7万名不同书写者的多样化笔迹风格，包括拼写错误、涂改和间距不均等真实场景中的瑕疵。研究人员通常利用该数据集训练深度神经网络模型，如基于卷积循环神经网络（CRNN）或连接时序分类（CTC）的架构，以提升模型对复杂手写文本的泛化能力。其大规模样本有效缓解了传统小数据集导致的过拟合问题，为手写识别算法的性能评估提供了可靠标准。

解决学术问题

CENSUS-HWR数据集主要解决了手写识别研究中训练数据不足和样本单一化的核心问题。传统数据集如IAM和RIMES虽被广泛使用，但样本量有限且笔迹过于规整，导致模型难以适应真实历史文档中的噪声和变异。该数据集通过提取美国1930年和1940年人口普查的手写记录，提供了包含涂改、拥挤字符和拼写错误的自然笔迹样本，使研究者能够开发更具鲁棒性的识别模型。这不仅推动了手写识别算法在复杂场景下的进步，还为跨领域研究如历史文档数字化和信息提取奠定了数据基础。

实际应用

在实际应用中，CENSUS-HWR数据集为历史档案的自动化转录提供了关键支持。例如，在人口普查记录、家谱研究和历史文献数字化项目中，该数据集训练的模型能够高效识别手写姓名、职业和教育水平等信息，大幅降低人工转录成本。其衍生的反向索引工具已被用于监狱系统的平板设备，允许志愿者通过众包方式校正转录错误，体现了公民科学在文化遗产保护中的潜力。此外，该数据集还可应用于教育评估、法律文档分析等领域，提升手写文本处理的准确性和效率。

数据集最近研究