five

mahmoudsalah01/SAQR

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mahmoudsalah01/SAQR
下载链接
链接失效反馈
官方服务:
资源简介:
SAQR是一个大规模配对的印刷体-手写体阿拉伯语数据集,收集自331名12-22岁的阿拉伯语学生。每个样本将印刷体参考行图像与对应的学生手写体配对,为阿拉伯语手写文本识别(HTR)及相关视觉任务提供了丰富的监督数据。数据集包含2,263对GT-HW行对,来自331名学生(1,207名男性/1,056名女性),总字符数为111,437个阿拉伯字符,独特词汇量为4,047个词类型。数据集支持手写文本识别、性别分类和跨模态匹配等任务。数据集结构包括pair_id、gt_image、hw_image、text、category、split、student_id和form_creator等字段。数据集按作者独立划分,分为训练集(1,575)、验证集(335)和测试集(353)。

### 数据集元信息 - 标注生成者:专家生成 - 语言生成方式:公开采集 - 语言:阿拉伯语 - 许可证:CC-BY 4.0 - 多语言属性:单语言 - 样本规模:1000 < 样本数 < 10000 - 源数据集:原始数据集 - 任务类别:图像到文本、图像分类、图像特征提取 - 任务子项:无 - 美观名称:"SAQR:配对式印刷-手写阿拉伯语行数据集" - 数据集信息: - 特征字段: 1. pair_id:64位整数,唯一样本标识符 2. gt_image:图像类型,印刷体真值图像 3. hw_image:图像类型,手写体图像 4. text:字符串类型,阿拉伯语文本转录结果 5. category:类别标签类型,类别名称为`0`: 男性,`1`: 女性 6. split:字符串类型,数据集划分(训练/验证/测试) 7. student_id:字符串类型,匿名化学生标识符 8. form_creator:字符串类型,表单模板标识符 - 划分集: 1. 训练集:1575个样本 2. 验证集:335个样本 3. 测试集:353个样本 # SAQR:面向手写识别与跨模态检索的配对式印刷-手写阿拉伯语行数据集 **论文**:《SAQR:面向手写识别与跨模态检索的配对式印刷-手写阿拉伯语行数据集》 **期刊**:Scientific Data (Nature/Springer) — 已投稿待审 **联系方式**:mahmoud.salah@aun.edu.eg ## 数据集摘要 SAQR是一个大规模的配对式**印刷体真值-手写体(Printed Ground Truth – Handwritten,GT-HW)**阿拉伯语数据集,采集自331名年龄在12至22岁之间的阿拉伯语学生。每个样本均将**印刷体参考行图像**与对应的学生手写内容配对,可为阿拉伯语手写文本识别(Handwritten Text Recognition,HTR)及相关视觉任务提供丰富的监督信号。 | 数据集属性 | 取值 | |----------|-------| | **总样本对数量** | 2263个GT-HW行样本对 | | **书写者数量** | 331名学生(年龄12-22岁) | | **性别分布** | 男性1207人 / 女性1056人 | | **总单词数** | 25352个 | | **总字符数** | 111437个阿拉伯语字符 | | **唯一词汇量** | 4047种词型 | | **唯一字符数** | 47个 | | **平均行长度** | 49.2个字符 / 11.2个单词 | | **数据集划分** | 训练集1575 / 验证集335 / 测试集353(书写者独立划分) | | **语言** | 阿拉伯语(现代标准阿拉伯语 / 正式散文) | | **许可证** | CC-BY 4.0 | ## 数据集预览 SAQR中的GT-HW行样本对示例,展示了书写者群体的多样手写风格(上方为印刷体真值,下方为学生手写文本): ![样本对示例]("sample_pairs.png") ## 支持任务 | 任务类型 | 任务描述 | |------|-------------| | **手写文本识别(HTR)** | 将`hw_image`转录为阿拉伯语文本 | | **性别分类** | 从`hw_image`预测书写者性别 | | **GT-HW跨模态匹配** | 在353个候选样本中匹配`gt_image`与`hw_image` | ## 数据集结构 每个样本包含以下字段: - `pair_id`:唯一整数标识符 - `gt_image`:**印刷体**阿拉伯语文本行图像(真值图像) - `hw_image`:**手写体**复制图像(学生手写内容) - `text`:阿拉伯语转录字符串 - `category`:书写者性别标签(`0=男性` / `1=女性`) - `split`:数据集划分,可选值为`train` / `val` / `test` - `student_id`:匿名化的学生标识符 - `form_creator`:表单模板标识符 ## 数据集加载 ### 完整数据集加载 python from datasets import load_dataset ds = load_dataset("mahmoudsalah01/SAQR") train = ds["train"] val = ds["validation"] test = ds["test"] # 访问单个样本 sample = train[0] print(sample["text"]) # 阿拉伯语文本转录结果 sample["gt_image"].show() # 显示印刷体真值行图像 sample["hw_image"].show() # 显示手写体行图像 ### 手写文本识别任务加载(手写图像→文本) python from datasets import load_dataset ds = load_dataset("mahmoudsalah01/SAQR", split="train") for sample in ds: image = sample["hw_image"] # 输入图像:手写文本图像 label = sample["text"] # 目标转录文本 ### 性别分类任务加载 python from datasets import load_dataset ds = load_dataset("mahmoudsalah01/SAQR", split="train") for sample in ds: image = sample["hw_image"] # 输入图像:手写文本图像 gender = sample["category"] # 性别标签:0为男性,1为女性 ## 基准实验结果 ### 任务1:手写文本识别 | 方法 | 字符错误率(CER ↓) | 单词错误率(WER ↓) | |--------|--------|--------| | Tesseract 4.0(零样本) | 0.565 | 1.061 | | EasyOCR(零样本) | 0.485 | 1.045 | | TrOCR-Base(微调,本文方法) | **0.533** | **0.721** | ### 任务2:基于手写图像的性别分类 | 方法 | 准确率 | 宏F1值 | |--------|----------|----------| | ViT-Base(微调,本文方法) | **73.5%** | 0.71 | ### 任务3:GT-HW跨模态匹配(候选池规模=353) | 方法 | 召回率@1(R@1) | 召回率@10(R@10) | 平均倒数排名(MRR) | |--------|-----|------|-----| | CLIP ViT-B/32(零样本) | 0.6% | 7.1% | 3.2% | | DINOv2 Siamese网络 | 1.7% | 11.0% | 5.6% | | 微调版CLIP | 5.9% | 26.3% | 12.9% | | Siamese ViT(InfoNCE损失) | 5.4% | 36.5% | 15.0% | | **Siamese ViT + 难样本挖掘(本文方法)** | **10.8%** | **31.7%** | **17.7%** | ## 数据采集方法 学生从印刷表单(源自报纸文章的阿拉伯语正式散文)上抄写文本行至A4纸张。表单以300 DPI分辨率扫描并分割为行,再按表单索引进行配对。转录文本从原始.docx表单模板中提取。数据集划分采用**书写者独立划分方式**:无书写者出现在多个划分集中。 ## 许可证 [知识共享署名4.0国际许可协议(CC BY 4.0)]("https://creativecommons.org/licenses/by/4.0/") ## 联系方式 **马哈茂德·萨拉赫(Mahmoud Salah)** — mahmoud.salah@aun.edu.eg 如有疑问或问题,请在Hugging Face数据集页面开启讨论(Discussion)。
提供机构:
mahmoudsalah01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作