FarsiDigits-synthetic
收藏github2026-02-10 更新2026-02-13 收录
下载链接:
https://github.com/Erfanjenab/FarsiDigits-synthetic
下载链接
链接失效反馈官方服务:
资源简介:
这是一个合成的波斯(Farsi)数字数据集,包含30,000个64×64像素的图像,具有随机字体、位置、旋转和像素噪声,专为挑战ML/OCR泛化能力而设计。数据集旨在为波斯/阿拉伯数字提供一个类似于MNIST的数据集,但更具挑战性,适用于分类模型的训练和波斯OCR项目的基础。
This is a synthetic Persian (Farsi) digit dataset containing 30,000 64×64 pixel images with random fonts, positions, rotations, and pixel-level noise, specifically designed to challenge the generalization capabilities of machine learning (ML) and optical character recognition (OCR) systems. The dataset aims to provide a MNIST-like dataset for Persian/Arabic digits but with greater difficulty, suitable for training classification models and serving as a foundational resource for Persian OCR projects.
创建时间:
2026-02-10
原始信息汇总
FarsiDigits-synthetic 数据集概述
数据集简介
FarsiDigits-synthetic 是一个合成的波斯语(Farsi)数字图像数据集,包含超过 30,000 张 64×64 像素的图像。该数据集专为挑战机器学习(ML)和光学字符识别(OCR)模型的泛化能力而设计。
关键特征
- 数字范围:包含数字 0 至 9,但数字 8 被有意省略以集中研究焦点。
- 字体多样性:每张图像使用 13 种随机波斯语/阿拉伯语字体(如 BCompset、BTitrBd 等)中的一种,使模型适应不同风格。
- 随机位置:数字被放置在随机位置(x 坐标范围:8-16,y 坐标范围:4-12),避免模型依赖固定位置。
- 随机旋转:图像被随机旋转 -15 至 +15 度,模拟真实世界的手写倾斜。
- 像素噪声:一半的图像添加了随机像素噪声(像素值范围 80-150),另一半为纯黑色(像素值 0),以增强模型对噪声条件的鲁棒性。
与 MNIST 数据集的差异
- 图像尺寸:MNIST 为 28x28 像素,本数据集为 64x64 像素,提供更多细节和更高复杂度。
- 数字类型:MNIST 为手写英文数字,本数据集为印刷体波斯语/阿拉伯语数字,并包含字体多样性和噪声。
- 样本数量:MNIST 包含 70,000 个样本,本数据集包含 30,000 个样本,紧凑但足以训练。
- 额外挑战:本数据集通过添加旋转、噪声和随机位置,更严格地测试模型的泛化能力。
模型性能
在训练前,使用 SparseRandomProjection(eps=0.2)将维度从 4,096 降至约 2,327 以保留结构。 测试的模型及其精确度(Precision)如下:
- Logistic Regression:约 91%
- SVC:约 89%
- KNN:约 94%
- RandomForestClassifier:最佳性能,达到 96% 的精确度(未使用 bootstrap,random_state=41)。
混淆矩阵以及精确度-召回率(Precision-Recall)曲线和 ROC 曲线包含在代码中(已注释以便执行)。
安装与设置
- 克隆仓库:
git clone https://github.com/yourusername/farsi-digits-dataset.git - 安装依赖:
pip install -r requirements.txt(包括 numpy、scikit-learn、PIL 和 matplotlib) - 生成数据集:运行主代码以创建
Farsi_numeric.csv文件。
搜集汇总
数据集介绍

构建方式
在数字识别领域,针对波斯语/阿拉伯语数字的机器学习研究相对稀缺,FarsiDigits-synthetic数据集应运而生。该数据集通过Python PIL库程序化生成,包含超过30,000张64×64像素的波斯数字图像,涵盖0至9(除8外)的九个数字类别。生成过程中采用随机化策略:从13种波斯字体中随机选择字体,在限定坐标范围内随机定位数字,并施加-15°至+15°的随机旋转。为增强鲁棒性,半数图像添加了80-150灰度值的随机像素噪声,其余保持纯黑背景,从而构建出高度多样化的合成样本集合。
特点
该数据集的核心特征体现在其精心设计的挑战性维度上。图像尺寸扩展至64×64像素,相比传统MNIST提供了更丰富的空间细节。字体多样性覆盖13种波斯/阿拉伯字体,模拟了印刷体数字的形态变异。空间随机性通过动态坐标定位打破位置依赖性,而可控旋转角度则模拟了自然书写中的倾斜变化。噪声机制的二分设计——随机像素干扰与纯净背景交替出现,迫使模型学习对噪声污染的鲁棒表示。这些特征共同构成了一个面向右向左文字、强调泛化能力的基准测试平台。
使用方法
使用该数据集时,研究者可通过GitHub仓库获取生成代码与依赖配置。典型流程包括克隆代码库、安装numpy/scikit-learn/PIL等依赖包,执行主程序生成标准化的Farsi_numeric.csv数据文件。预处理阶段建议采用稀疏随机投影等技术将4096维特征压缩至约2327维以提升计算效率。数据集适用于分类模型训练与评估,特别在波斯语OCR系统开发中可作为基础训练集。已验证的建模方案包括逻辑回归、支持向量机、K近邻及随机森林等算法,其中随机森林在默认参数下达到96%的精确率,展现了良好的基准性能。
背景与挑战
背景概述
在光学字符识别与机器学习领域,跨语言数字识别一直是推动技术普适性的关键研究方向。FarsiDigits-synthetic数据集由独立研究者于近年创建,旨在填补波斯语与阿拉伯语数字识别资源的空白。该数据集通过合成方法生成了超过30,000张64×64像素的图像,专注于数字0至9(排除数字8),并融入了多样化的字体、随机位置、旋转角度及像素噪声。其核心研究问题在于提升模型对右向左书写语言数字的泛化能力,为波斯语OCR系统的开发提供了重要的实验基础,对多语言文档分析与数字化进程具有显著的推动作用。
当前挑战
该数据集致力于解决波斯语与阿拉伯语数字识别的领域挑战,其核心在于克服字体多样性、位置偏移、旋转形变及噪声干扰等现实场景中的识别难题。在构建过程中,研究者面临合成数据真实性与复杂性的平衡挑战,需通过精心设计的随机化策略模拟手写倾斜与噪声条件,同时确保数据质量与标注一致性。此外,数据集中故意省略数字8以集中研究焦点,这也带来了模型在完整数字集上泛化能力的潜在限制,要求后续研究在扩展数据覆盖范围时保持识别精度。
常用场景
经典使用场景
在光学字符识别与机器学习领域,FarsiDigits-synthetic数据集为波斯语数字识别提供了标准化的评估基准。该数据集通过合成生成30,000张64×64像素的波斯语数字图像,涵盖了随机字体、位置、旋转及像素噪声等多种复杂变体,旨在模拟真实世界中的多样化书写风格。其经典使用场景在于训练和测试分类模型,特别是针对波斯语或阿拉伯语数字的识别任务,为研究者提供了一个具有挑战性的平台,以评估模型在跨字体、抗噪声及旋转不变性等方面的泛化能力。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于稀疏随机投影的特征降维方法、集成学习模型如随机森林的分类优化,以及对抗性训练在噪声鲁棒性中的应用。这些工作不仅验证了数据集在逻辑回归、支持向量机等传统算法上的有效性,还促进了深度学习架构如卷积神经网络在波斯语OCR中的适配研究,为后续跨语言迁移学习、数据增强策略提供了重要参考。
数据集最近研究
最新研究方向
在光学字符识别与多语言机器学习领域,FarsiDigits-synthetic数据集正推动前沿研究向更具挑战性的泛化能力测试迈进。该数据集通过合成波斯语数字图像,融合随机字体、位置、旋转及像素噪声,为模型在复杂现实场景中的鲁棒性评估提供了新基准。当前研究热点集中于跨语言OCR系统的适应性优化,特别是在处理右向左书写文字时,如何利用此类合成数据克服训练样本稀缺问题。其影响在于促进了低资源语言数字化进程,为波斯语等语言的自动识别技术奠定了可扩展的实验基础,意义深远地拓展了多模态人工智能在文化多样性保护中的应用前景。
以上内容由遇见数据集搜集并总结生成



