five

johnlockejrr/KHATT_v1.0_dataset

收藏
Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/johnlockejrr/KHATT_v1.0_dataset
下载链接
链接失效反馈
资源简介:
KHATT_v1.0数据集是一个包含1000名不同作者手写的阿拉伯文本的数据库。数据集包括2000个相似文本段落图像和2000个独特文本段落图像及其提取的文本行图像。所有图像都附有手动验证的真实标签和拉丁字母表示。数据集可用于手写文本识别、作者识别等研究。数据集分为训练集(70%)、验证集(15%)和测试集(15%)。所有文档均为阿拉伯语。

The KHATT (KFUPM Handwritten Arabic TexT) database is a database of unconstrained handwritten Arabic text written by 1000 different writers. Developed by a research group from KFUPM, it includes 2000 similar-text paragraph images and 2000 unique-text paragraph images along with their extracted text line images. The images are accompanied by manually verified ground-truth and Latin representation of the ground-truth. This database can be used for various handwriting recognition related researches such as text recognition and writer identification. The dataset is divided into training (70%), validation (15%), and testing (15%) sets. All documents are written in Arabic.
提供机构:
johnlockejrr
原始信息汇总

KHATT_v1.0 - line level

数据集概述

KHATT (KFUPM Handwritten Arabic TexT) 数据库是一个由1000名不同作者书写的无约束阿拉伯手写文本数据库。该数据库由KFUPM的研究团队开发,团队由Sabri Mahmoud教授领导,并与TU-Dortmund的Fink教授和TU-Braunschweig的Märgner博士合作完成。

数据库包括2000张相似文本段落图像和2000张独特文本段落图像及其提取的文本行图像。图像附有手动验证的地面实况和地面实况的拉丁表示。该数据库可用于各种与手写识别相关的研究,如文本识别和作者识别。

数据库概览

  • 由1000名不同作者书写的表格。
  • 以不同分辨率(200、300和600 DPI)扫描。
  • 作者来自不同国家、性别、年龄组、书写习惯和教育水平。
  • 自然书写,无限制的书写风格。
  • 2000张独特段落图像及其分段行图像(源文本来自不同主题,如艺术、教育、健康、自然、技术)。
  • 2000张包含相似文本的段落图像,每张覆盖所有阿拉伯字符和形状及其分段行图像。
  • 作者自由书写的段落,主题不限。
  • 段落和行图像附有手动验证的地面实况。
  • 数据库分为三个不相交的集合:训练集(70%)、验证集(15%)和测试集(15%)。
  • 促进作者识别、行分割、二值化和噪声去除技术以及手写文本识别等领域的研究。

数据集结构

数据实例

json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>, "text": "رفاظ قيار يؤل نب فوؤر هبحصب ماغرض رفظم حون بهذ" }

数据字段

  • image: 包含图像的PIL.Image.Image对象。访问图像列时,图像文件会自动解码。解码大量图像文件可能需要大量时间,因此建议先查询样本索引再访问“image”列。
  • text: 图像的标签转录。由于PyLaia库的限制,文本从RTL翻转为LTR。

数据集信息

  • 特征:
    • image: 图像数据类型
    • text: 字符串数据类型
  • 分割:
    • train: 4672个样本
    • validation: 963个样本
    • test: 1038个样本
  • 数据集大小: 220M
  • 标签:
    • atr
    • htr
    • ocr
    • historical
    • handwritten
    • arabic
AI搜集汇总
数据集介绍
main_image_url
构建方式
KHATT_v1.0数据集的构建由沙特阿拉伯KFUPM研究团队主导,联合德国TU-Dortmund大学的Professor Fink与TU-Braunschweig大学的Dr. Märgner共同完成。该数据集搜集了1000名不同作者的书写样本,包含2000张相似文本段落的图像及其分割后的文本行图像,以及2000张独特文本段落的图像及其对应的文本行图像。所有图像均配备了经过人工验证的地面真实值和拉丁文表示,并根据研究需求分为训练集、验证集和测试集,以确保数据集的可用性和多样性。
特点
该数据集的特点在于其包含了不同国家、性别、年龄、左右手习惯和教育水平的作者所书写的自然文本,书写风格不受限制。图像的分辨率多样,涵盖了200、300和600 DPI。此外,数据集不仅包括独特的文本段落,还有覆盖所有阿拉伯字符和形状的相似文本段落,为书写识别相关研究提供了丰富的素材。
使用方法
使用KHATT_v1.0数据集时,研究人员可以访问其训练集、验证集和测试集,这些数据集以 disjoint sets 的形式提供,以便于进行模型训练、验证和测试。数据集中的图像和文本字段可以方便地通过索引访问,其中图像字段包含了PIL图像对象,文本字段则包含了图像的转录标签。值得注意的是,图像在访问时会被自动解码,而大量图像的解码可能需要较长时间,因此建议先查询样本索引再访问图像字段。
背景与挑战
背景概述
KHATT_v1.0数据集,全称为KFUPM Handwritten Arabic TexT数据库,是由沙特阿拉伯达曼的KFUPM研究小组在萨布里·马哈茂德教授的领导下,与德国多特蒙德大学的Fink教授以及不伦瑞克大学的Märgner博士合作开发的。该数据库汇集了1000名不同作者的阿拉伯手写文本,旨在推动手写识别相关研究,如文本识别、作者识别等。KHATT_v1.0数据集包含了2000个类似文本段落的图像和2000个独特文本段落的图像及其提取的文本行图像,为研究人员提供了丰富的资源,自发布以来,在学术界产生了广泛影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:确保收集的手写文本样本具有足够的多样性和代表性,涵盖不同国家、性别、年龄、左右手习惯和教育水平的人群;处理不同分辨率(200、300和600 DPI)的扫描图像,以及保持文本的自然风格和不受限制的书写方式。此外,在研究领域中,KHATT_v1.0数据集面临的挑战还包括如何有效地提高手写文本识别的准确性,以及如何利用该数据集进一步推进作者识别、行分割、二值化和噪声移除技术等研究领域的发展。
常用场景
经典使用场景
在深入研究阿拉伯语手写文本识别领域,KHATT_v1.0数据集以其丰富的样本资源和精确的标注,成为一项不可或缺的研究工具。该数据集广泛用于图像到文本的转换任务,尤其是在深度学习模型的训练与验证过程中,其标准化的数据 splits —— 训练集、验证集与测试集,为模型提供了全面而准确的评估标准。
实际应用
在实际应用中,KHATT_v1.0数据集的应用范围广泛,如在文档分析、信息提取、历史文献数字化等领域,它为开发高效准确的手写文本识别系统提供了坚实的基础。该数据集的运用,有助于提高文档处理自动化水平,降低人工处理成本,对于文化遗产的数字化保存与传承具有重要意义。
衍生相关工作
基于KHATT_v1.0数据集,研究者们已经衍生出一系列相关工作,包括但不限于改进的识别算法、跨语言书写识别技术以及手写文本的自动分类与标注方法。这些工作进一步扩展了数据集的用途,推动了手写文本识别领域的技术创新和理论发展。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作