fidel-dataset
收藏Hugging Face2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/datasets/upanzi/fidel-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Fidel是一个针对阿姆哈拉语的光学字符识别(OCR)的句子级大规模数据集,包含了来自手写、打印和合成来源的阿姆哈拉语文本图像。这个数据集旨在推进阿姆哈拉语的语言技术,服务于埃塞俄比亚的数字身份证计划、文档数字化和自动化表格处理等关键应用。
创建时间:
2025-05-11
原始信息汇总
Fidel: 阿姆哈拉语句级OCR大规模数据集
数据集概述
- 目的:推动阿姆哈拉语语言技术发展,支持数字身份证计划、文档数字化和埃塞俄比亚自动化表单处理等关键应用
- 内容:包含手写、打印和合成来源的多样化阿姆哈拉语文本图像集合
- 语言:阿姆哈拉语(am)
- 数据规模:100K<n<1M
- 许可协议:MIT License
数据集结构
fidel-dataset/ ├── train/ │ ├── images/ # 训练图像(手写/打印/合成) │ └── labels.csv # 包含文件名和对应文本标签 ├── test/ │ ├── images/ # 测试图像(手写/打印/合成) │ └── labels.csv # 包含文件名和对应文本标签 └── metadata.json # Croissant元数据文件
标签格式
image_filename:图像文件名line_text:图像中的阿姆哈拉文本内容type:来源类型(手写/打印/合成)writer:书写者编号(仅手写类型)
数据集统计
总体统计
- 总样本量:366,059
- 训练样本:292,847(约80%)
- 测试样本:73,212(约20%)
按来源类型
- 手写样本:40,946
- 打印样本:28,303
- 合成样本:297,810
图像特征
| 类型 | 平均宽度(px) | 平均高度(px) | 平均宽高比 |
|---|---|---|---|
| 手写 | 2,480 | 199 | 14.0 |
| 打印 | 2,482 | 71 | 19.5 |
| 合成 | 2,956 | 244 | 11.6 |
文本特征
| 类型 | 平均文本长度(字符) | 平均单词数 | 唯一字符数 |
|---|---|---|---|
| 手写 | 62.0 | 11.3 | 249 |
| 打印 | 95.2 | 16.9 | 200 |
| 合成 | 74.7 | 14.7 | 190 |
许可信息
- 许可证类型:MIT License
- 许可证链接:https://opensource.org/licenses/MIT
致谢
感谢所有提供手写样本的贡献者,以及支持数据收集工作的组织。本项目由CMU-Africa的Upanzi Network支持。
搜集汇总
数据集介绍

构建方式
Fidel数据集作为阿姆哈拉语光学字符识别领域的重要资源,其构建过程体现了多源数据融合的先进理念。研究团队通过精心设计的采集流程,整合了手写体、印刷体和合成文本三种数据来源,其中手写样本由多位书写者参与采集,确保了数据的多样性和代表性。数据集采用分层抽样策略,将36万余条样本按8:2比例划分为训练集和测试集,并详细记录了每条数据的来源类型和书写者编号,为后续研究提供了清晰的溯源路径。
特点
该数据集最显著的特征在于其全面的数据覆盖和精细的标注体系。从数据构成来看,手写体、印刷体和合成文本的比例经过科学配置,既反映了实际应用场景的多样性,又保证了数据规模的需求。技术参数方面,图像分辨率、长宽比等视觉特征以及文本长度、词汇量等语言特征均按数据类型进行了系统统计,为模型训练提供了重要参考。特别值得注意的是,数据集包含了249个独特字符,充分展现了阿姆哈拉语丰富的文字系统。
使用方法
使用该数据集时,研究者可通过标准的文件结构快速定位所需资源,训练集和测试集分别存储在独立的目录中,配套的CSV标注文件采用直观的字段设计。对于特定研究需求,可利用metadata.json中的元数据进行细粒度筛选,如按来源类型或书写者进行子集划分。在技术实现层面,建议研究者注意不同类型数据在图像尺寸和文本长度上的差异,适当进行预处理以确保模型训练的稳定性。数据集采用的MIT许可协议也为学术和商业应用提供了灵活的使用权限。
背景与挑战
背景概述
Fidel数据集作为埃塞俄比亚官方语言阿姆哈拉语的大规模光学字符识别(OCR)数据集,由多个研究机构联合构建,旨在推动阿姆哈拉语语言技术的发展。该数据集涵盖了手写、打印和合成三种不同来源的文本图像,共计366,059个样本,其中训练集占比80%,测试集占比20%。其核心研究问题聚焦于提升阿姆哈拉语OCR技术在数字身份识别、文档数字化和自动化表单处理等关键应用场景中的性能表现。Fidel数据集的发布填补了阿姆哈拉语OCR领域大规模高质量数据集的空白,为相关研究提供了重要基础资源。
当前挑战
Fidel数据集面临的挑战主要体现在两个方面:领域问题层面,阿姆哈拉语作为闪米特语系语言,其复杂的文字系统和丰富的字符变体对OCR模型的识别精度提出了严峻考验;数据构建层面,手写样本采集过程中存在个体书写风格差异大、文本行对齐困难等技术难题,而合成数据与真实场景数据之间的领域差异也需要特别关注。此外,数据集中不同类型样本在图像尺寸、文本长度等方面存在显著差异,这对模型的泛化能力提出了更高要求。
常用场景
经典使用场景
在埃塞俄比亚语言技术研究中,Fidel数据集作为阿姆哈拉语光学字符识别(OCR)领域的基准数据集,广泛应用于句子级别的文本识别任务。该数据集通过整合手写、打印和合成三种文本来源,为研究者提供了丰富的实验素材,特别适用于开发跨域鲁棒性强的OCR模型。其大规模样本覆盖了不同书写风格和字体变体,成为评估模型泛化能力的黄金标准。
实际应用
在埃塞俄比亚政务数字化进程中,该数据集直接服务于国民身份证件自动识别、历史档案电子化等实际场景。金融机构利用基于该数据集训练的模型处理手写表单,教育机构将其用于阿姆哈拉语教学材料的智能批改。特别值得注意的是,数据集包含的多样化书写样本极大提升了现实场景中面对低质量文本图像的识别准确率。
衍生相关工作
基于Fidel数据集已衍生出多项重要研究成果,包括跨模态的阿姆哈拉语-英语双语OCR系统、结合注意力机制的端到端识别框架等。该数据集还启发了类似GeezScript等埃塞俄比亚其他语言的文本识别研究,推动建立了东非语言技术研究的基准体系,相关成果在ACL AfricaNLP等国际会议上形成系列论文。
以上内容由遇见数据集搜集并总结生成



