mahmoudsalah01/SAQR
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mahmoudsalah01/SAQR
下载链接
链接失效反馈官方服务:
资源简介:
SAQR是一个大规模配对的印刷体-手写体阿拉伯语数据集,收集自331名12-22岁的阿拉伯语学生。每个样本将印刷体参考行图像与对应的学生手写体配对,为阿拉伯语手写文本识别(HTR)及相关视觉任务提供了丰富的监督数据。数据集包含2,263对GT-HW行对,来自331名学生(1,207名男性/1,056名女性),总字符数为111,437个阿拉伯字符,独特词汇量为4,047个词类型。数据集支持手写文本识别、性别分类和跨模态匹配等任务。数据集结构包括pair_id、gt_image、hw_image、text、category、split、student_id和form_creator等字段。数据集按作者独立划分,分为训练集(1,575)、验证集(335)和测试集(353)。
### 数据集元信息
- 标注生成者:专家生成
- 语言生成方式:公开采集
- 语言:阿拉伯语
- 许可证:CC-BY 4.0
- 多语言属性:单语言
- 样本规模:1000 < 样本数 < 10000
- 源数据集:原始数据集
- 任务类别:图像到文本、图像分类、图像特征提取
- 任务子项:无
- 美观名称:"SAQR:配对式印刷-手写阿拉伯语行数据集"
- 数据集信息:
- 特征字段:
1. pair_id:64位整数,唯一样本标识符
2. gt_image:图像类型,印刷体真值图像
3. hw_image:图像类型,手写体图像
4. text:字符串类型,阿拉伯语文本转录结果
5. category:类别标签类型,类别名称为`0`: 男性,`1`: 女性
6. split:字符串类型,数据集划分(训练/验证/测试)
7. student_id:字符串类型,匿名化学生标识符
8. form_creator:字符串类型,表单模板标识符
- 划分集:
1. 训练集:1575个样本
2. 验证集:335个样本
3. 测试集:353个样本
# SAQR:面向手写识别与跨模态检索的配对式印刷-手写阿拉伯语行数据集
**论文**:《SAQR:面向手写识别与跨模态检索的配对式印刷-手写阿拉伯语行数据集》
**期刊**:Scientific Data (Nature/Springer) — 已投稿待审
**联系方式**:mahmoud.salah@aun.edu.eg
## 数据集摘要
SAQR是一个大规模的配对式**印刷体真值-手写体(Printed Ground Truth – Handwritten,GT-HW)**阿拉伯语数据集,采集自331名年龄在12至22岁之间的阿拉伯语学生。每个样本均将**印刷体参考行图像**与对应的学生手写内容配对,可为阿拉伯语手写文本识别(Handwritten Text Recognition,HTR)及相关视觉任务提供丰富的监督信号。
| 数据集属性 | 取值 |
|----------|-------|
| **总样本对数量** | 2263个GT-HW行样本对 |
| **书写者数量** | 331名学生(年龄12-22岁) |
| **性别分布** | 男性1207人 / 女性1056人 |
| **总单词数** | 25352个 |
| **总字符数** | 111437个阿拉伯语字符 |
| **唯一词汇量** | 4047种词型 |
| **唯一字符数** | 47个 |
| **平均行长度** | 49.2个字符 / 11.2个单词 |
| **数据集划分** | 训练集1575 / 验证集335 / 测试集353(书写者独立划分) |
| **语言** | 阿拉伯语(现代标准阿拉伯语 / 正式散文) |
| **许可证** | CC-BY 4.0 |
## 数据集预览
SAQR中的GT-HW行样本对示例,展示了书写者群体的多样手写风格(上方为印刷体真值,下方为学生手写文本):

## 支持任务
| 任务类型 | 任务描述 |
|------|-------------|
| **手写文本识别(HTR)** | 将`hw_image`转录为阿拉伯语文本 |
| **性别分类** | 从`hw_image`预测书写者性别 |
| **GT-HW跨模态匹配** | 在353个候选样本中匹配`gt_image`与`hw_image` |
## 数据集结构
每个样本包含以下字段:
- `pair_id`:唯一整数标识符
- `gt_image`:**印刷体**阿拉伯语文本行图像(真值图像)
- `hw_image`:**手写体**复制图像(学生手写内容)
- `text`:阿拉伯语转录字符串
- `category`:书写者性别标签(`0=男性` / `1=女性`)
- `split`:数据集划分,可选值为`train` / `val` / `test`
- `student_id`:匿名化的学生标识符
- `form_creator`:表单模板标识符
## 数据集加载
### 完整数据集加载
python
from datasets import load_dataset
ds = load_dataset("mahmoudsalah01/SAQR")
train = ds["train"]
val = ds["validation"]
test = ds["test"]
# 访问单个样本
sample = train[0]
print(sample["text"]) # 阿拉伯语文本转录结果
sample["gt_image"].show() # 显示印刷体真值行图像
sample["hw_image"].show() # 显示手写体行图像
### 手写文本识别任务加载(手写图像→文本)
python
from datasets import load_dataset
ds = load_dataset("mahmoudsalah01/SAQR", split="train")
for sample in ds:
image = sample["hw_image"] # 输入图像:手写文本图像
label = sample["text"] # 目标转录文本
### 性别分类任务加载
python
from datasets import load_dataset
ds = load_dataset("mahmoudsalah01/SAQR", split="train")
for sample in ds:
image = sample["hw_image"] # 输入图像:手写文本图像
gender = sample["category"] # 性别标签:0为男性,1为女性
## 基准实验结果
### 任务1:手写文本识别
| 方法 | 字符错误率(CER ↓) | 单词错误率(WER ↓) |
|--------|--------|--------|
| Tesseract 4.0(零样本) | 0.565 | 1.061 |
| EasyOCR(零样本) | 0.485 | 1.045 |
| TrOCR-Base(微调,本文方法) | **0.533** | **0.721** |
### 任务2:基于手写图像的性别分类
| 方法 | 准确率 | 宏F1值 |
|--------|----------|----------|
| ViT-Base(微调,本文方法) | **73.5%** | 0.71 |
### 任务3:GT-HW跨模态匹配(候选池规模=353)
| 方法 | 召回率@1(R@1) | 召回率@10(R@10) | 平均倒数排名(MRR) |
|--------|-----|------|-----|
| CLIP ViT-B/32(零样本) | 0.6% | 7.1% | 3.2% |
| DINOv2 Siamese网络 | 1.7% | 11.0% | 5.6% |
| 微调版CLIP | 5.9% | 26.3% | 12.9% |
| Siamese ViT(InfoNCE损失) | 5.4% | 36.5% | 15.0% |
| **Siamese ViT + 难样本挖掘(本文方法)** | **10.8%** | **31.7%** | **17.7%** |
## 数据采集方法
学生从印刷表单(源自报纸文章的阿拉伯语正式散文)上抄写文本行至A4纸张。表单以300 DPI分辨率扫描并分割为行,再按表单索引进行配对。转录文本从原始.docx表单模板中提取。数据集划分采用**书写者独立划分方式**:无书写者出现在多个划分集中。
## 许可证
[知识共享署名4.0国际许可协议(CC BY 4.0)]("https://creativecommons.org/licenses/by/4.0/")
## 联系方式
**马哈茂德·萨拉赫(Mahmoud Salah)** — mahmoud.salah@aun.edu.eg
如有疑问或问题,请在Hugging Face数据集页面开启讨论(Discussion)。
提供机构:
mahmoudsalah01



