Voxel51/USPS
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Voxel51/USPS
下载链接
链接失效反馈官方服务:
资源简介:
usps数据集是一个用于图像分类任务的数据集,包含9298个样本。该数据集由Jonathan J. Hull在《A Database for Handwritten Text Recognition Research》中引入,并可在paperswithcode.com上获取。数据集的语言为英语,许可证未知。数据集的结构包括两个分割:train和test,样本根据其分割进行标记。数据集的字段包括id、filepath、tags、metadata和ground_truth。
usps数据集是一个用于图像分类任务的数据集,包含9298个样本。该数据集由Jonathan J. Hull在《A Database for Handwritten Text Recognition Research》中引入,并可在paperswithcode.com上获取。数据集的语言为英语,许可证未知。数据集的结构包括两个分割:train和test,样本根据其分割进行标记。数据集的字段包括id、filepath、tags、metadata和ground_truth。
提供机构:
Voxel51
原始信息汇总
数据集概述
基本信息
- 数据集名称: usps
- 样本数量: 9298
- 语言: 英语 (en)
- 许可证: 未知
- 任务类别: 图像分类
- 大小类别: 1K<n<10K
- 标签: fiftyone, image, image-classification
数据集描述
- 创建者: 由Jonathan J. Hull在论文《A Database for Handwritten Text Recognition Research》中引入,并可在paperswithcode上获取。
数据集结构
-
名称: usps
-
媒体类型: 图像
-
样本数量: 9298
-
持久性: 否
-
标签: 无
-
样本字段:
- id: fiftyone.core.fields.ObjectIdField
- filepath: fiftyone.core.fields.StringField
- tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField)
- metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata)
- ground_truth: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)
-
数据集分割: 包含"train"和"test"两个分割,样本根据分割进行标记。
数据集创建
- 创建者: Jonathan J. Hull在论文《A Database for Handwritten Text Recognition Research》中引入。
引用
-
BibTeX:
@ARTICLE{291440, author={Hull, J.J.}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, title={A database for handwritten text recognition research}, year={1994}, volume={16}, number={5}, pages={550-554}, keywords={Text recognition;Image databases;Testing;Cities and towns;Handwriting recognition;Gray-scale;Performance analysis;Writing;Digital images;Postal services}, doi={10.1109/34.291440}}
贡献者
- 数据集转换和数据卡贡献者: Rohith Raj Srinivasan
搜集汇总
数据集介绍

构建方式
在光学字符识别研究领域,USPS数据集作为手写数字识别的重要基准,其构建过程体现了早期数据采集的严谨性。该数据集源自美国邮政服务实际业务中收集的手写邮政编码图像,通过扫描邮件信封上的数字区域,形成灰度图像集合。原始数据经过规范化处理,统一为16x16像素分辨率,并划分为训练集与测试集,确保模型评估的可靠性。数据标注工作基于真实邮政编码信息,为每幅图像赋予对应数字类别标签,构建了结构清晰的分类数据集。
特点
USPS数据集在图像分类任务中展现出独特价值,其核心特征在于数据来源的真实性与多样性。数据集包含9298幅手写数字灰度图像,涵盖0至9十个类别,每幅图像均保持16x16像素的标准化尺寸。图像样本源自实际邮政场景,笔迹风格各异,充分反映了手写数字的自然变异特性。数据集采用标准划分方式,明确区分训练集与测试集,为模型训练与性能评估提供可靠基础。这种真实场景采集的数据特性,使其成为验证手写数字识别算法泛化能力的重要资源。
使用方法
利用FiftyOne数据平台,研究者可便捷地访问与探索USPS数据集。通过安装FiftyOne库并调用专用工具模块,用户能够直接从HuggingFace平台加载数据集,支持灵活的参数配置如样本数量限制。加载后的数据集可直接集成至FiftyOne可视化环境,通过交互式界面直观浏览图像样本及其标注信息。这种集成化使用方法不仅简化了数据获取流程,更为算法开发提供了实时可视化分析能力,支持研究者快速验证模型性能并进行深入的数据洞察。
背景与挑战
背景概述
USPS数据集作为手写数字识别领域的经典基准,由Jonathan J. Hull于1994年在其开创性论文《A Database for Handwritten Text Recognition Research》中正式提出。该数据集源自美国邮政服务的手写邮政编码图像,旨在为光学字符识别技术提供标准化的评估平台。其核心研究问题聚焦于如何通过机器学习方法,准确识别和分类灰度手写数字图像,从而推动自动化邮件分拣系统的发展。USPS数据集的建立,不仅为早期模式识别研究提供了关键数据支撑,更在图像分类算法的演进历程中扮演了基石角色,持续影响着计算机视觉与文档分析领域的学术探索与技术应用。
当前挑战
USPS数据集所针对的手写数字识别任务,面临着手写风格多样性、笔画连接与断裂、图像噪声干扰以及数字形变等固有挑战,这些因素共同构成了模式分类的复杂性。在数据集构建过程中,研究人员需克服原始邮政图像的质量不均、背景干扰剔除以及标注一致性维护等难题。此外,将模拟数据转换为适用于现代机器学习框架的标准化格式,亦需处理图像预处理、标签对齐与数据分割等关键环节,以确保数据集的可靠性与可复现性。
常用场景
经典使用场景
在光学字符识别与手写数字识别领域,USPS数据集作为经典基准,常被用于评估和比较各类机器学习模型的性能。该数据集包含9298个灰度图像样本,涵盖0至9的手写数字,其图像尺寸统一为16x16像素,为研究者提供了标准化的实验环境。经典使用场景涉及监督学习框架下的图像分类任务,研究人员通过划分训练集与测试集,系统性地验证卷积神经网络、支持向量机等算法的分类准确率与泛化能力,从而推动模式识别技术的演进。
衍生相关工作
围绕USPS数据集,学术界衍生出多项经典研究工作,例如结合主成分分析与线性判别分析的特征优化方法,以及基于核技巧的支持向量机分类器改进。此外,该数据集常与MNIST等大型数据集进行对比研究,以评估模型在跨域适应中的表现。近年来,随着深度学习兴起,USPS亦成为轻量级神经网络架构验证的重要平台,相关成果进一步推动了迁移学习与领域自适应理论在手写识别中的创新应用。
数据集最近研究
最新研究方向
在光学字符识别与手写数字识别领域,USPS数据集作为经典基准,持续推动着前沿算法的演进。当前研究聚焦于跨域适应与少样本学习,旨在提升模型在真实场景中的泛化能力,例如从扫描文档迁移至移动设备拍摄的图像。同时,结合生成对抗网络的数据增强策略,有效缓解了类别不平衡问题,增强了识别鲁棒性。这些探索不仅深化了对手写体变异的理解,也为邮政自动化、金融票据处理等实际应用提供了关键技术支撑。
以上内容由遇见数据集搜集并总结生成



