five

johnlockejrr/KHATT_v1.0_dataset|手写识别数据集|阿拉伯语处理数据集

收藏
hugging_face2024-07-01 更新2024-07-06 收录
手写识别
阿拉伯语处理
下载链接:
https://hf-mirror.com/datasets/johnlockejrr/KHATT_v1.0_dataset
下载链接
链接失效反馈
资源简介:
KHATT_v1.0数据集是一个包含1000名不同作者手写的阿拉伯文本的数据库。数据集包括2000个相似文本段落图像和2000个独特文本段落图像及其提取的文本行图像。所有图像都附有手动验证的真实标签和拉丁字母表示。数据集可用于手写文本识别、作者识别等研究。数据集分为训练集(70%)、验证集(15%)和测试集(15%)。所有文档均为阿拉伯语。

The KHATT (KFUPM Handwritten Arabic TexT) database is a database of unconstrained handwritten Arabic text written by 1000 different writers. Developed by a research group from KFUPM, it includes 2000 similar-text paragraph images and 2000 unique-text paragraph images along with their extracted text line images. The images are accompanied by manually verified ground-truth and Latin representation of the ground-truth. This database can be used for various handwriting recognition related researches such as text recognition and writer identification. The dataset is divided into training (70%), validation (15%), and testing (15%) sets. All documents are written in Arabic.
提供机构:
johnlockejrr
原始信息汇总

KHATT_v1.0 - line level

数据集概述

KHATT (KFUPM Handwritten Arabic TexT) 数据库是一个由1000名不同作者书写的无约束阿拉伯手写文本数据库。该数据库由KFUPM的研究团队开发,团队由Sabri Mahmoud教授领导,并与TU-Dortmund的Fink教授和TU-Braunschweig的Märgner博士合作完成。

数据库包括2000张相似文本段落图像和2000张独特文本段落图像及其提取的文本行图像。图像附有手动验证的地面实况和地面实况的拉丁表示。该数据库可用于各种与手写识别相关的研究,如文本识别和作者识别。

数据库概览

  • 由1000名不同作者书写的表格。
  • 以不同分辨率(200、300和600 DPI)扫描。
  • 作者来自不同国家、性别、年龄组、书写习惯和教育水平。
  • 自然书写,无限制的书写风格。
  • 2000张独特段落图像及其分段行图像(源文本来自不同主题,如艺术、教育、健康、自然、技术)。
  • 2000张包含相似文本的段落图像,每张覆盖所有阿拉伯字符和形状及其分段行图像。
  • 作者自由书写的段落,主题不限。
  • 段落和行图像附有手动验证的地面实况。
  • 数据库分为三个不相交的集合:训练集(70%)、验证集(15%)和测试集(15%)。
  • 促进作者识别、行分割、二值化和噪声去除技术以及手写文本识别等领域的研究。

数据集结构

数据实例

json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=4300x128 at 0x1A800E8E190>, "text": "رفاظ قيار يؤل نب فوؤر هبحصب ماغرض رفظم حون بهذ" }

数据字段

  • image: 包含图像的PIL.Image.Image对象。访问图像列时,图像文件会自动解码。解码大量图像文件可能需要大量时间,因此建议先查询样本索引再访问“image”列。
  • text: 图像的标签转录。由于PyLaia库的限制,文本从RTL翻转为LTR。

数据集信息

  • 特征:
    • image: 图像数据类型
    • text: 字符串数据类型
  • 分割:
    • train: 4672个样本
    • validation: 963个样本
    • test: 1038个样本
  • 数据集大小: 220M
  • 标签:
    • atr
    • htr
    • ocr
    • historical
    • handwritten
    • arabic
AI搜集汇总
数据集介绍
main_image_url
构建方式
KHATT_v1.0数据集的构建由沙特阿拉伯KFUPM研究团队主导,联合德国TU-Dortmund大学的Professor Fink与TU-Braunschweig大学的Dr. Märgner共同完成。该数据集搜集了1000名不同作者的书写样本,包含2000张相似文本段落的图像及其分割后的文本行图像,以及2000张独特文本段落的图像及其对应的文本行图像。所有图像均配备了经过人工验证的地面真实值和拉丁文表示,并根据研究需求分为训练集、验证集和测试集,以确保数据集的可用性和多样性。
特点
该数据集的特点在于其包含了不同国家、性别、年龄、左右手习惯和教育水平的作者所书写的自然文本,书写风格不受限制。图像的分辨率多样,涵盖了200、300和600 DPI。此外,数据集不仅包括独特的文本段落,还有覆盖所有阿拉伯字符和形状的相似文本段落,为书写识别相关研究提供了丰富的素材。
使用方法
使用KHATT_v1.0数据集时,研究人员可以访问其训练集、验证集和测试集,这些数据集以 disjoint sets 的形式提供,以便于进行模型训练、验证和测试。数据集中的图像和文本字段可以方便地通过索引访问,其中图像字段包含了PIL图像对象,文本字段则包含了图像的转录标签。值得注意的是,图像在访问时会被自动解码,而大量图像的解码可能需要较长时间,因此建议先查询样本索引再访问图像字段。
背景与挑战
背景概述
KHATT_v1.0数据集,全称为KFUPM Handwritten Arabic TexT数据库,是由沙特阿拉伯达曼的KFUPM研究小组在萨布里·马哈茂德教授的领导下,与德国多特蒙德大学的Fink教授以及不伦瑞克大学的Märgner博士合作开发的。该数据库汇集了1000名不同作者的阿拉伯手写文本,旨在推动手写识别相关研究,如文本识别、作者识别等。KHATT_v1.0数据集包含了2000个类似文本段落的图像和2000个独特文本段落的图像及其提取的文本行图像,为研究人员提供了丰富的资源,自发布以来,在学术界产生了广泛影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:确保收集的手写文本样本具有足够的多样性和代表性,涵盖不同国家、性别、年龄、左右手习惯和教育水平的人群;处理不同分辨率(200、300和600 DPI)的扫描图像,以及保持文本的自然风格和不受限制的书写方式。此外,在研究领域中,KHATT_v1.0数据集面临的挑战还包括如何有效地提高手写文本识别的准确性,以及如何利用该数据集进一步推进作者识别、行分割、二值化和噪声移除技术等研究领域的发展。
常用场景
经典使用场景
在深入研究阿拉伯语手写文本识别领域,KHATT_v1.0数据集以其丰富的样本资源和精确的标注,成为一项不可或缺的研究工具。该数据集广泛用于图像到文本的转换任务,尤其是在深度学习模型的训练与验证过程中,其标准化的数据 splits —— 训练集、验证集与测试集,为模型提供了全面而准确的评估标准。
实际应用
在实际应用中,KHATT_v1.0数据集的应用范围广泛,如在文档分析、信息提取、历史文献数字化等领域,它为开发高效准确的手写文本识别系统提供了坚实的基础。该数据集的运用,有助于提高文档处理自动化水平,降低人工处理成本,对于文化遗产的数字化保存与传承具有重要意义。
衍生相关工作
基于KHATT_v1.0数据集,研究者们已经衍生出一系列相关工作,包括但不限于改进的识别算法、跨语言书写识别技术以及手写文本的自动分类与标注方法。这些工作进一步扩展了数据集的用途,推动了手写文本识别领域的技术创新和理论发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

城市积水点

该数据是北京市水务局提供的城市积水点信息,包括日期、积水位置、水位(米)等属性字段。

北京市公共数据开放平台 收录

Dynamic World dataset

Dynamic World数据集是由Google和世界资源研究所合作推出的近实时高分辨率土地利用/土地覆盖(LULC)数据集。该数据集通过先进的分割技术处理Sentinel-2卫星图像,提供了10个波段,其中9个波段包含像素被特定类别完全覆盖的估计概率,最后一个波段包含最高估计概率的波段索引。数据集的分辨率为10米,确保了高精度的结果。数据集的创建过程包括从Google Earth Engine中提取图像,并通过Fishnet生成器创建网格进行分析。该数据集主要应用于城市化预测、环境监测和可持续发展的决策支持。

arXiv 收录

Amazon Deforestation Monitoring

该数据集主要用于监测亚马逊雨林的森林砍伐情况,包含卫星图像和地理信息数据,用于分析和跟踪森林覆盖变化。

www.globalforestwatch.org 收录

SatwikKambham/suim

SUIM数据集是一个专为水下图像语义分割设计的数据集,包含1525张标注的训练/验证图像和110张测试图像。图像中识别的对象类别包括水体背景、人类潜水员、水生植物、沉船遗迹、机器人、珊瑚礁和无脊椎动物、鱼类和脊椎动物、海底和岩石,每个类别都有特定的符号和灰度值。

hugging_face 收录