five

Arabic Handwritten Characters Dataset|阿拉伯文字识别数据集|机器学习数据集

收藏
github2020-01-25 更新2024-05-31 收录
阿拉伯文字识别
机器学习
下载链接:
https://github.com/mloey/Arabic-Handwritten-Characters-Dataset
下载链接
链接失效反馈
资源简介:
该数据集包含16,800个由60名参与者书写的阿拉伯字符,年龄范围在19至40岁之间,其中90%为右撇子。每位参与者对每个字符(从alef到yeh)书写十次,使用两种形式。数据集被分为训练集和测试集,分别包含13,440个字符和3,360个字符。

本数据集汇集了60位年龄介于19至40岁之间的参与者所书写的16,800个阿拉伯字符样本。其中,90%的参与者为右利手。每位参与者针对每个字符(包括从alef至yeh的所有字符)进行了十次书写,且采用两种不同的书写形式。数据集经过精心划分,形成训练集与测试集,分别包含13,440个字符与3,360个字符。
创建时间:
2017-06-23
原始信息汇总

阿拉伯手写文字数据集概述

数据集内容

  • 数据量: 包含16,800个手写阿拉伯字符。
  • 参与者: 由60名年龄在19至40岁之间的参与者书写,其中90%为右撇子。
  • 书写方式: 每位参与者对每个字符(从alef到yeh)书写十次,共使用两张表格。
  • 分辨率: 表格扫描分辨率为300 dpi。
  • 数据分割: 使用Matlab 2016a自动分割每个区块,确定坐标。
  • 数据集划分: 分为训练集(13,440个字符,每类480张图像)和测试集(3,360个字符,每类120张图像)。
  • 参与者分布: 训练集和测试集的参与者互不重叠,测试集参与者的选择随机,确保测试集的多样性。

实验结果

  • 分类准确率: 在测试图像上达到94.9%的分类准确率。
  • 错误率: 提出的CNN模型在测试数据上的平均误分类错误率为5.1%。

未来工作

  • 计划进一步改进手写阿拉伯字符识别的性能。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Arabic Handwritten Characters Dataset的构建采取了深度学习框架下的卷积神经网络(CNN)进行手写阿拉伯字符的识别。该数据集包含了60位年龄在19至40岁之间的参与者所书写的16800个字符,其中90%的参与者为右撇子。每位参与者在两种表格上各书写了10次每个字符(从‘alef’到‘yeh’)。这些表格以300 dpi的分辨率进行扫描,并通过Matlab 2016a软件自动分割,确定每个字符块的坐标。数据集被划分为训练集和测试集,确保了书写者的独立性和测试集的多样性。
特点
该数据集的特点在于其丰富的样本多样性,涵盖了不同年龄、书写习惯的参与者所书写的字符。此外,数据集的构建考虑了手写风格、笔触粗细、点数及位置等变量的影响,使得数据集对手写阿拉伯字符识别算法的训练更具挑战性和实用性。通过实验验证,该数据集上的识别准确率达到94.9%,误分类误差平均为5.1%,表明了数据集的高质量和适用性。
使用方法
在使用该数据集时,用户可依据训练集和测试集的划分,将数据集导入至深度学习框架中进行模型的训练和验证。训练集用于模型的学习,而测试集则用于评估模型的性能。用户需确保所使用的工具能够处理高分辨率的图像,并能够适应CNN模型的输入需求。通过该数据集,研究人员能够开发和优化手写阿拉伯字符的识别系统。
背景与挑战
背景概述
Arabic Handwritten Characters Dataset是一项专注于阿拉伯手写字符识别的研究成果,创建于2017年,由Ahmed El-Sawy, Mohamed Loey, Hazem EL-Bakry等研究人员共同完成。该数据集的产生旨在提升手写阿拉伯字符识别系统的准确性,面对人类手写变异性无限及公共数据库庞大的挑战。该研究采用卷积神经网络(CNN)模型,并在其上应用优化方法以提升性能,实现了5.1%的平均误分类误差,对机器学习分类算法的改进具有显著影响,为手写阿拉伯字符识别领域提供了新的研究方向和技术路径。
当前挑战
该数据集在构建过程中所遇到的挑战主要包括:1) 手写阿拉伯字符的无限变异性,给字符识别带来了极大的困难;2) 需要大量的数据(图像)来训练深度学习系统,以保证其决策的准确性;3) 数据集构建中的多样性问题,例如,字符书写风格、粗细、点数及其位置的变化,以及某些字符在不同位置书写时形状的差异,这些都是提升识别准确率必须克服的技术难题。
常用场景
经典使用场景
针对手写阿拉伯字符识别的挑战,Arabic Handwritten Characters Dataset被构建并应用于深度学习架构,尤其是卷积神经网络(CNN)的训练与测试。该数据集的经典使用场景在于为CNN提供充足的训练样本,以优化其对手写阿拉伯字符的识别性能,降低平均5.1%的错误分类率。
衍生相关工作
基于此数据集,衍生出了一系列深度学习在手写阿拉伯字符识别上的应用研究,包括但不限于优化神经网络结构、改进特征提取方法等,进一步推动了字符识别领域的学术探索和技术进步。
数据集最近研究
最新研究方向
在阿拉伯手写字符识别领域,研究者们致力于克服人类手写变异性及大型公共数据库的挑战。近期研究通过构建深度学习架构,特别是卷积神经网络(CNN),显著提升了识别准确率。该网络在含有16800个手写阿拉伯字符的数据集上进行了训练和测试,实现了94.9%的分类准确率和5.1%的平均误分类误差。此项研究旨在利用跨知识学习来增强阿拉伯手写字符识别的性能,为手写识别领域提供了新的高级解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录