five

BHDD

收藏
arXiv2026-03-23 更新2026-03-25 收录
下载链接:
https://github.com/baseresearch/BHDD
下载链接
链接失效反馈
官方服务:
资源简介:
BHDD是由Expa.AI研究团队创建的缅甸手写数字数据集,包含87,561张28×28像素的灰度图像,涵盖0-9十个类别。数据集分为60,000张训练样本和27,561张测试样本,数据来源于超过150名不同年龄和背景的贡献者。数据收集通过社区努力完成,使用手机摄像头拍摄并经过严格的质量控制流程。该数据集旨在填补缅甸手写数字识别领域的空白,为光学字符识别和手写数字识别研究提供基准。

BHDD is a Burmese handwritten digit dataset developed by the Expa.AI research team. It contains 87,561 grayscale images with a resolution of 28×28 pixels, covering 10 categories ranging from 0 to 9. The dataset is split into 60,000 training samples and 27,561 test samples. The data was contributed by over 150 contributors with varying ages and backgrounds. The data collection was completed through community-driven efforts, with images captured using mobile phone cameras and subjected to rigorous quality control procedures. This dataset aims to fill the gap in the field of Burmese handwritten digit recognition, providing a benchmark for optical character recognition (OCR) and handwritten digit recognition research.
提供机构:
Expa.AI研究团队
创建时间:
2026-03-23
原始信息汇总

缅甸手写数字数据集 (BHDD) 概述

数据集简介

缅甸手写数字数据集 (BHDD) 是一个专门为识别缅甸手写数字而创建的数据集项目。它作为著名MNIST数据集的缅甸语对应版本,旨在促进机器学习和深度学习领域的学习与基准测试。

数据集详情

数据集统计

  • 训练集样本数量:60,000
  • 测试集样本数量:27,561
  • 类别数量:10(缅甸数字0–9)

数据格式

  • 训练图像形状(60000, 784)
  • 训练标签形状(60000,)
  • 测试图像形状(27561, 784)
  • 测试标签形状(27561,)

数据内容

数据集包含以下部分:

  1. 训练图像:60,000张缅甸手写数字的灰度图像,被扁平化为大小为784(28x28像素)的一维数组。
  2. 训练标签:与数字类别对应的整数标签(0–9)。
  3. 测试图像:27,561张用于测试的灰度图像。
  4. 测试标签:测试数据的整数标签(0–9)。

数据收集与预处理

数据收集自超过150名不同年龄(从高中生到50多岁的专业人士)和不同职业(包括文员、程序员等)的个体,以获得多样化的手写风格。随后进行了预处理,以镜像MNIST数据集的结构和功能。

引用信息

引用论文

bibtex @article{bhdd2026, author = {Swan Htet Aung and Hein Htet and Htoo Say Wah Khaing and Thuya Myo Nyunt}, title = {{BHDD}: A Burmese Handwritten Digit Dataset}, journal = {arXiv preprint arXiv:2603.21966}, year = {2026}, url = {https://arxiv.org/abs/2603.21966} }

引用数据集仓库

bibtex @dataset{bhdd_repo, author = {Swan Htet Aung and Hein Htet and Htoo Say Wah Khaing and Thuya Myo Nyunt and {Expa.AI Research Team}}, title = {{BHDD}: Burmese Handwritten Digit Dataset}, year = {2019}, publisher = {GitHub}, url = {https://github.com/baseresearch/BHDD}, note = {Dataset: CC BY-SA 4.0, Code: LGPL-3.0} }

核心贡献者

  • Swan Htet Aung — 首席研究员,Expa.AI
  • Hein Htet — 研究工程师,Expa.AI
  • Htoo Say Wah Khaing — 数据工程师,Expa.AI
  • Thuya Myo Nyunt — 技术负责人,Expa.AI 以及Expa.AI研究团队的其他成员。

许可证

本项目采用双重许可证:

  • 数据集(图像、标签和数据文件):CC BY-SA 4.0
  • 代码(脚本、笔记本和软件):LGPL-3.0
搜集汇总
数据集介绍
main_image_url
构建方式
在缅甸手写数字识别领域,BHDD数据集的构建体现了严谨的社区协作与质量控制流程。研究团队组织了超过150名来自不同年龄与职业背景的贡献者,在普通A4纸上手写缅甸数字,并通过手机摄像头采集了约2500张图像。为应对拍摄环境的光照与角度差异,团队开发了专用的Android应用程序,实时进行自适应阈值化与轮廓检测,确保数字提取的清晰度。后续利用OpenCV进行灰度转换、二值化、轮廓定位与尺寸归一化处理,最终将每个数字居中裁剪为28×28像素的灰度图像。数据质量经过两阶段人工审核,剔除了错误标注或难以辨识的样本,确保了数据集的纯净性与独特性。
特点
BHDD数据集作为首个公开的缅甸手写数字基准数据集,其核心特点在于充分反映了缅甸文字固有的圆形书写形态所带来的识别挑战。数据集包含87,561张灰度图像,涵盖0至9共十类数字,其中训练集包含60,000个样本并进行了类别平衡处理,而测试集则保留了27,561个原始收集时的不平衡分布,更贴近实际应用场景。图像均遵循MNIST格式,便于与现有模型框架兼容。数据集中数字的视觉形态以曲线、圆弧和环形结构为主,导致如“0”与“1”等数字对因结构相似而易被混淆,这为研究手写体识别中的形态学变异提供了独特素材。
使用方法
该数据集主要用于手写数字识别模型的训练、评估与比较研究。研究者可直接通过其提供的Python pickle或IDX格式文件加载数据,IDX格式与MNIST兼容,能够无缝接入各类主流深度学习框架的数据加载器。数据已按贡献者划分为训练集与测试集,确保了书写风格的独立性,避免了数据泄漏。用户可基于提供的多层感知机、卷积神经网络及改进版CNN等基线模型进行实验复现,或开发新算法以应对圆形数字特有的识别难点。数据集的测试集不平衡特性也促使研究者关注模型在真实分布下的鲁棒性评估。
背景与挑战
背景概述
缅甸手写数字数据集(BHDD)由Expa.AI研究团队于2026年创建,旨在填补缅甸文字手写数字识别领域公共基准数据集的空白。该数据集收录了来自150余名不同年龄与背景贡献者提供的87,561张灰度图像,遵循MNIST标准格式,包含均衡分布的60,000个训练样本与保留自然收集频率的27,561个测试样本。缅甸文字因其历史上书写于棕榈叶而发展出独特的圆形笔画结构,数字形态多由曲线与弧线构成,导致部分数字对视觉相似度高。BHDD的发布为缅甸语光学字符识别研究提供了首个标准化评估基准,推动了多语言手写识别领域的均衡发展。
当前挑战
该数据集核心挑战集中于缅甸文字固有的形态相似性问题。由于数字笔画均以圆弧为基础构建,如数字0与1仅通过圆形闭合程度区分,数字0与8共享外部环形轮廓,此类结构特性导致分类器易产生混淆。在数据构建过程中,团队面临采集环境多样性的挑战:多数样本通过手机摄像头拍摄,光照条件、拍摄角度与设备差异使得数字化提取过程复杂化;尽管采用自适应阈值与轮廓检测的移动端预处理流程,仍需人工参与质量校验以剔除模糊、错误标注及重复样本。此外,数据收集依赖社区协作,样本的地理与人口分布集中性可能限制书写风格的多样性表征。
常用场景
经典使用场景
在光学字符识别领域,缅甸文手写数字识别长期面临基准数据缺失的挑战。BHDD数据集以其规范的MNIST格式和丰富的样本规模,为研究者提供了评估模型性能的标准化平台。该数据集最经典的使用场景在于训练和测试卷积神经网络等深度学习模型,通过其平衡的训练集与不平衡的测试集设计,能够全面检验模型对缅甸文圆形数字结构的泛化能力与鲁棒性。
实际应用
在实际应用层面,BHDD数据集为缅甸地区的教育数字化和金融自动化提供了关键技术支撑。基于该数据集训练的识别模型可集成至移动端光学字符识别应用,实现手写票据数字的自动录入,或用于历史文献的数字化存档。在多元文化社会场景中,此类技术能够辅助政府部门处理手写表格,提升公共服务效率,同时为缅甸语自然语言处理系统的前端输入模块奠定基础。
衍生相关工作
该数据集的发布催生了多个延伸研究方向,包括跨文字手写识别迁移学习框架的构建。研究者可借鉴其数据采集范式,拓展至缅甸文字符与单词级别的数据集建设,如后续计划中的缅甸文字母数据集。在模型层面,针对圆形笔画相似性的对抗训练方法、基于注意力机制的混淆数字区分模型等创新工作相继涌现,形成了以BHDD为核心的缅甸文计算语言学工具链生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作