FarsiDigits-synthetic

github2026-02-10 更新2026-02-13 收录

下载链接：

https://github.com/Erfanjenab/FarsiDigits-synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个合成的波斯（Farsi）数字数据集，包含30,000个64×64像素的图像，具有随机字体、位置、旋转和像素噪声，专为挑战ML/OCR泛化能力而设计。数据集旨在为波斯/阿拉伯数字提供一个类似于MNIST的数据集，但更具挑战性，适用于分类模型的训练和波斯OCR项目的基础。

This is a synthetic Persian (Farsi) digit dataset containing 30,000 64×64 pixel images with random fonts, positions, rotations, and pixel-level noise, specifically designed to challenge the generalization capabilities of machine learning (ML) and optical character recognition (OCR) systems. The dataset aims to provide a MNIST-like dataset for Persian/Arabic digits but with greater difficulty, suitable for training classification models and serving as a foundational resource for Persian OCR projects.

创建时间：

2026-02-10

原始信息汇总

FarsiDigits-synthetic 数据集概述

数据集简介

FarsiDigits-synthetic 是一个合成的波斯语（Farsi）数字图像数据集，包含超过 30,000 张 64×64 像素的图像。该数据集专为挑战机器学习（ML）和光学字符识别（OCR）模型的泛化能力而设计。

关键特征

数字范围：包含数字 0 至 9，但数字 8 被有意省略以集中研究焦点。
字体多样性：每张图像使用 13 种随机波斯语/阿拉伯语字体（如 BCompset、BTitrBd 等）中的一种，使模型适应不同风格。
随机位置：数字被放置在随机位置（x 坐标范围：8-16，y 坐标范围：4-12），避免模型依赖固定位置。
随机旋转：图像被随机旋转 -15 至 +15 度，模拟真实世界的手写倾斜。
像素噪声：一半的图像添加了随机像素噪声（像素值范围 80-150），另一半为纯黑色（像素值 0），以增强模型对噪声条件的鲁棒性。

与 MNIST 数据集的差异

图像尺寸：MNIST 为 28x28 像素，本数据集为 64x64 像素，提供更多细节和更高复杂度。
数字类型：MNIST 为手写英文数字，本数据集为印刷体波斯语/阿拉伯语数字，并包含字体多样性和噪声。
样本数量：MNIST 包含 70,000 个样本，本数据集包含 30,000 个样本，紧凑但足以训练。
额外挑战：本数据集通过添加旋转、噪声和随机位置，更严格地测试模型的泛化能力。

模型性能

在训练前，使用 SparseRandomProjection（eps=0.2）将维度从 4,096 降至约 2,327 以保留结构。测试的模型及其精确度（Precision）如下：

Logistic Regression：约 91%
SVC：约 89%
KNN：约 94%
RandomForestClassifier：最佳性能，达到 96% 的精确度（未使用 bootstrap，random_state=41）。

混淆矩阵以及精确度-召回率（Precision-Recall）曲线和 ROC 曲线包含在代码中（已注释以便执行）。

安装与设置

克隆仓库：git clone https://github.com/yourusername/farsi-digits-dataset.git
安装依赖：pip install -r requirements.txt（包括 numpy、scikit-learn、PIL 和 matplotlib）
生成数据集：运行主代码以创建 Farsi_numeric.csv 文件。

搜集汇总

数据集介绍

构建方式

在数字识别领域，针对波斯语/阿拉伯语数字的机器学习研究相对稀缺，FarsiDigits-synthetic数据集应运而生。该数据集通过Python PIL库程序化生成，包含超过30,000张64×64像素的波斯数字图像，涵盖0至9（除8外）的九个数字类别。生成过程中采用随机化策略：从13种波斯字体中随机选择字体，在限定坐标范围内随机定位数字，并施加-15°至+15°的随机旋转。为增强鲁棒性，半数图像添加了80-150灰度值的随机像素噪声，其余保持纯黑背景，从而构建出高度多样化的合成样本集合。

特点

该数据集的核心特征体现在其精心设计的挑战性维度上。图像尺寸扩展至64×64像素，相比传统MNIST提供了更丰富的空间细节。字体多样性覆盖13种波斯/阿拉伯字体，模拟了印刷体数字的形态变异。空间随机性通过动态坐标定位打破位置依赖性，而可控旋转角度则模拟了自然书写中的倾斜变化。噪声机制的二分设计——随机像素干扰与纯净背景交替出现，迫使模型学习对噪声污染的鲁棒表示。这些特征共同构成了一个面向右向左文字、强调泛化能力的基准测试平台。

使用方法

使用该数据集时，研究者可通过GitHub仓库获取生成代码与依赖配置。典型流程包括克隆代码库、安装numpy/scikit-learn/PIL等依赖包，执行主程序生成标准化的Farsi_numeric.csv数据文件。预处理阶段建议采用稀疏随机投影等技术将4096维特征压缩至约2327维以提升计算效率。数据集适用于分类模型训练与评估，特别在波斯语OCR系统开发中可作为基础训练集。已验证的建模方案包括逻辑回归、支持向量机、K近邻及随机森林等算法，其中随机森林在默认参数下达到96%的精确率，展现了良好的基准性能。

背景与挑战

背景概述

在光学字符识别与机器学习领域，跨语言数字识别一直是推动技术普适性的关键研究方向。FarsiDigits-synthetic数据集由独立研究者于近年创建，旨在填补波斯语与阿拉伯语数字识别资源的空白。该数据集通过合成方法生成了超过30,000张64×64像素的图像，专注于数字0至9（排除数字8），并融入了多样化的字体、随机位置、旋转角度及像素噪声。其核心研究问题在于提升模型对右向左书写语言数字的泛化能力，为波斯语OCR系统的开发提供了重要的实验基础，对多语言文档分析与数字化进程具有显著的推动作用。

当前挑战

该数据集致力于解决波斯语与阿拉伯语数字识别的领域挑战，其核心在于克服字体多样性、位置偏移、旋转形变及噪声干扰等现实场景中的识别难题。在构建过程中，研究者面临合成数据真实性与复杂性的平衡挑战，需通过精心设计的随机化策略模拟手写倾斜与噪声条件，同时确保数据质量与标注一致性。此外，数据集中故意省略数字8以集中研究焦点，这也带来了模型在完整数字集上泛化能力的潜在限制，要求后续研究在扩展数据覆盖范围时保持识别精度。

常用场景

经典使用场景

在光学字符识别与机器学习领域，FarsiDigits-synthetic数据集为波斯语数字识别提供了标准化的评估基准。该数据集通过合成生成30,000张64×64像素的波斯语数字图像，涵盖了随机字体、位置、旋转及像素噪声等多种复杂变体，旨在模拟真实世界中的多样化书写风格。其经典使用场景在于训练和测试分类模型，特别是针对波斯语或阿拉伯语数字的识别任务，为研究者提供了一个具有挑战性的平台，以评估模型在跨字体、抗噪声及旋转不变性等方面的泛化能力。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于稀疏随机投影的特征降维方法、集成学习模型如随机森林的分类优化，以及对抗性训练在噪声鲁棒性中的应用。这些工作不仅验证了数据集在逻辑回归、支持向量机等传统算法上的有效性，还促进了深度学习架构如卷积神经网络在波斯语OCR中的适配研究，为后续跨语言迁移学习、数据增强策略提供了重要参考。

数据集最近研究