johnlockejrr/KHATT_v1.0_dataset

Hugging Face2024-07-01 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/johnlockejrr/KHATT_v1.0_dataset

下载链接

链接失效反馈

资源简介：

KHATT_v1.0数据集是一个包含1000名不同作者手写的阿拉伯文本的数据库。数据集包括2000个相似文本段落图像和2000个独特文本段落图像及其提取的文本行图像。所有图像都附有手动验证的真实标签和拉丁字母表示。数据集可用于手写文本识别、作者识别等研究。数据集分为训练集（70%）、验证集（15%）和测试集（15%）。所有文档均为阿拉伯语。

The KHATT (KFUPM Handwritten Arabic TexT) database is a database of unconstrained handwritten Arabic text written by 1000 different writers. Developed by a research group from KFUPM, it includes 2000 similar-text paragraph images and 2000 unique-text paragraph images along with their extracted text line images. The images are accompanied by manually verified ground-truth and Latin representation of the ground-truth. This database can be used for various handwriting recognition related researches such as text recognition and writer identification. The dataset is divided into training (70%), validation (15%), and testing (15%) sets. All documents are written in Arabic.

提供机构：

johnlockejrr

原始信息汇总

KHATT_v1.0 - line level

数据集概述

KHATT (KFUPM Handwritten Arabic TexT) 数据库是一个由1000名不同作者书写的无约束阿拉伯手写文本数据库。该数据库由KFUPM的研究团队开发，团队由Sabri Mahmoud教授领导，并与TU-Dortmund的Fink教授和TU-Braunschweig的Märgner博士合作完成。

数据库包括2000张相似文本段落图像和2000张独特文本段落图像及其提取的文本行图像。图像附有手动验证的地面实况和地面实况的拉丁表示。该数据库可用于各种与手写识别相关的研究，如文本识别和作者识别。

数据库概览

由1000名不同作者书写的表格。
以不同分辨率（200、300和600 DPI）扫描。
作者来自不同国家、性别、年龄组、书写习惯和教育水平。
自然书写，无限制的书写风格。
2000张独特段落图像及其分段行图像（源文本来自不同主题，如艺术、教育、健康、自然、技术）。
2000张包含相似文本的段落图像，每张覆盖所有阿拉伯字符和形状及其分段行图像。
作者自由书写的段落，主题不限。
段落和行图像附有手动验证的地面实况。
数据库分为三个不相交的集合：训练集（70%）、验证集（15%）和测试集（15%）。
促进作者识别、行分割、二值化和噪声去除技术以及手写文本识别等领域的研究。

数据集结构

数据实例

json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>, "text": "رفاظ قيار يؤل نب فوؤر هبحصب ماغرض رفظم حون بهذ" }

数据字段

image: 包含图像的PIL.Image.Image对象。访问图像列时，图像文件会自动解码。解码大量图像文件可能需要大量时间，因此建议先查询样本索引再访问“image”列。
text: 图像的标签转录。由于PyLaia库的限制，文本从RTL翻转为LTR。

数据集信息

特征:
- image: 图像数据类型
- text: 字符串数据类型
分割:
- train: 4672个样本
- validation: 963个样本
- test: 1038个样本
数据集大小: 220M
标签:
- atr
- htr
- ocr
- historical
- handwritten
- arabic

AI搜集汇总

数据集介绍

构建方式

KHATT_v1.0数据集的构建由沙特阿拉伯KFUPM研究团队主导，联合德国TU-Dortmund大学的Professor Fink与TU-Braunschweig大学的Dr. Märgner共同完成。该数据集搜集了1000名不同作者的书写样本，包含2000张相似文本段落的图像及其分割后的文本行图像，以及2000张独特文本段落的图像及其对应的文本行图像。所有图像均配备了经过人工验证的地面真实值和拉丁文表示，并根据研究需求分为训练集、验证集和测试集，以确保数据集的可用性和多样性。

特点

该数据集的特点在于其包含了不同国家、性别、年龄、左右手习惯和教育水平的作者所书写的自然文本，书写风格不受限制。图像的分辨率多样，涵盖了200、300和600 DPI。此外，数据集不仅包括独特的文本段落，还有覆盖所有阿拉伯字符和形状的相似文本段落，为书写识别相关研究提供了丰富的素材。

使用方法

使用KHATT_v1.0数据集时，研究人员可以访问其训练集、验证集和测试集，这些数据集以 disjoint sets 的形式提供，以便于进行模型训练、验证和测试。数据集中的图像和文本字段可以方便地通过索引访问，其中图像字段包含了PIL图像对象，文本字段则包含了图像的转录标签。值得注意的是，图像在访问时会被自动解码，而大量图像的解码可能需要较长时间，因此建议先查询样本索引再访问图像字段。

背景与挑战

背景概述

KHATT_v1.0数据集，全称为KFUPM Handwritten Arabic TexT数据库，是由沙特阿拉伯达曼的KFUPM研究小组在萨布里·马哈茂德教授的领导下，与德国多特蒙德大学的Fink教授以及不伦瑞克大学的Märgner博士合作开发的。该数据库汇集了1000名不同作者的阿拉伯手写文本，旨在推动手写识别相关研究，如文本识别、作者识别等。KHATT_v1.0数据集包含了2000个类似文本段落的图像和2000个独特文本段落的图像及其提取的文本行图像，为研究人员提供了丰富的资源，自发布以来，在学术界产生了广泛影响。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保收集的手写文本样本具有足够的多样性和代表性，涵盖不同国家、性别、年龄、左右手习惯和教育水平的人群；处理不同分辨率（200、300和600 DPI）的扫描图像，以及保持文本的自然风格和不受限制的书写方式。此外，在研究领域中，KHATT_v1.0数据集面临的挑战还包括如何有效地提高手写文本识别的准确性，以及如何利用该数据集进一步推进作者识别、行分割、二值化和噪声移除技术等研究领域的发展。

常用场景

经典使用场景

在深入研究阿拉伯语手写文本识别领域，KHATT_v1.0数据集以其丰富的样本资源和精确的标注，成为一项不可或缺的研究工具。该数据集广泛用于图像到文本的转换任务，尤其是在深度学习模型的训练与验证过程中，其标准化的数据 splits —— 训练集、验证集与测试集，为模型提供了全面而准确的评估标准。

实际应用

在实际应用中，KHATT_v1.0数据集的应用范围广泛，如在文档分析、信息提取、历史文献数字化等领域，它为开发高效准确的手写文本识别系统提供了坚实的基础。该数据集的运用，有助于提高文档处理自动化水平，降低人工处理成本，对于文化遗产的数字化保存与传承具有重要意义。

衍生相关工作

基于KHATT_v1.0数据集，研究者们已经衍生出一系列相关工作，包括但不限于改进的识别算法、跨语言书写识别技术以及手写文本的自动分类与标注方法。这些工作进一步扩展了数据集的用途，推动了手写文本识别领域的技术创新和理论发展。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集