BHDD
收藏缅甸手写数字数据集 (BHDD) 概述
数据集简介
缅甸手写数字数据集 (BHDD) 是一个专门为识别缅甸手写数字而创建的数据集项目。它作为著名MNIST数据集的缅甸语对应版本,旨在促进机器学习和深度学习领域的学习与基准测试。
数据集详情
数据集统计
- 训练集样本数量:60,000
- 测试集样本数量:27,561
- 类别数量:10(缅甸数字0–9)
数据格式
- 训练图像形状:
(60000, 784) - 训练标签形状:
(60000,) - 测试图像形状:
(27561, 784) - 测试标签形状:
(27561,)
数据内容
数据集包含以下部分:
- 训练图像:60,000张缅甸手写数字的灰度图像,被扁平化为大小为784(28x28像素)的一维数组。
- 训练标签:与数字类别对应的整数标签(0–9)。
- 测试图像:27,561张用于测试的灰度图像。
- 测试标签:测试数据的整数标签(0–9)。
数据收集与预处理
数据收集自超过150名不同年龄(从高中生到50多岁的专业人士)和不同职业(包括文员、程序员等)的个体,以获得多样化的手写风格。随后进行了预处理,以镜像MNIST数据集的结构和功能。
引用信息
引用论文
bibtex @article{bhdd2026, author = {Swan Htet Aung and Hein Htet and Htoo Say Wah Khaing and Thuya Myo Nyunt}, title = {{BHDD}: A Burmese Handwritten Digit Dataset}, journal = {arXiv preprint arXiv:2603.21966}, year = {2026}, url = {https://arxiv.org/abs/2603.21966} }
引用数据集仓库
bibtex @dataset{bhdd_repo, author = {Swan Htet Aung and Hein Htet and Htoo Say Wah Khaing and Thuya Myo Nyunt and {Expa.AI Research Team}}, title = {{BHDD}: Burmese Handwritten Digit Dataset}, year = {2019}, publisher = {GitHub}, url = {https://github.com/baseresearch/BHDD}, note = {Dataset: CC BY-SA 4.0, Code: LGPL-3.0} }
核心贡献者
- Swan Htet Aung — 首席研究员,Expa.AI
- Hein Htet — 研究工程师,Expa.AI
- Htoo Say Wah Khaing — 数据工程师,Expa.AI
- Thuya Myo Nyunt — 技术负责人,Expa.AI 以及Expa.AI研究团队的其他成员。
许可证
本项目采用双重许可证:
- 数据集(图像、标签和数据文件):CC BY-SA 4.0
- 代码(脚本、笔记本和软件):LGPL-3.0




