five

DHC Dataset

收藏
github2024-02-25 更新2024-05-31 收录
下载链接:
https://github.com/sauravrt/DHCD_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
DHC数据集包含46个类别[36个字符类别和10个数字类别]的Devnagari手写脚本。每个类别有2000张图像,分为训练集和测试集,分别包含1700张和300张图像。该数据集在样本和类别数量上都超过著名的MNIST数据集。

The DHC dataset comprises 46 categories [36 character categories and 10 numerical categories] of Devanagari handwritten scripts. Each category contains 2000 images, divided into a training set and a test set, consisting of 1700 and 300 images respectively. This dataset surpasses the renowned MNIST dataset in both the number of samples and categories.
创建时间:
2018-02-28
原始信息汇总

Devnagari Handwritten Character (DHC) Dataset 概述

数据集描述

  • 字符和数字数量: 包含36个字符和10个数字。
  • 图像示例:
    • 36个字符的样本图像。
    • 10个数字的样本图像。
  • 数据集结构: 包含46个类别(36个字符类别和10个数字类别),每个类别有2000张图像,分为训练集(1700张)和测试集(300张)。
  • 数据集规模: 相较于著名的MNIST数据集,本数据集在样本数量和类别数量上更为庞大。

数据集用途

  • 主要用于字符分类任务。
  • 可探索其他应用,如风格转换、解耦、半监督学习等。

贡献者

  • 数据集由尼泊尔Bhaktapur的Mount Everest Higher Secondary School的6年级和7年级学生在2015年通过手写字符并手动扫描的方式贡献。

引用信息

  • 若在研究中使用此数据集,请按以下方式引用: bibtex @inproceedings{acharya2015deep, title={Deep learning based large scale handwritten Devanagari character recognition}, author={Acharya, Shailesh and Pant, Ashok Kumar and Gyawali, Prashnna Kumar}, booktitle={Software, Knowledge, Information Management and Applications (SKIMA), 2015 9th International Conference on}, pages={1--6}, year={2015}, organization={IEEE} }
搜集汇总
数据集介绍
main_image_url
构建方式
DHC数据集构建过程中,尼泊尔巴克塔普尔市Mount Everest中学的六年级和七年级学生在2015年自愿手写天城文字符,这些字符随后通过手动扫描进行数字化处理。数据集包含36个天城文字符和10个数字,每个类别包含2000张图像,分为训练集和测试集,分别包含1700张和300张图像。此外,数据集还经过了一系列预处理步骤,以确保数据的质量和一致性。
特点
DHC数据集以其丰富的类别和样本量著称,包含46个类别(36个字符和10个数字),每个类别有2000张图像,总样本量远超著名的MNIST数据集。数据集中的图像展示了天城文字符和数字的多样性,适合用于字符分类、风格转换、解耦学习等多种机器学习任务。数据集还提供了PyTorch的数据加载器,便于与其他深度学习框架如TensorFlow、Keras等集成。
使用方法
使用DHC数据集时,用户可以通过提供的PyTorch数据加载器轻松加载数据,并将其转换为其他深度学习框架所需的格式。数据集适用于字符分类任务,也可用于探索风格转换、解耦学习等复杂问题。在使用该数据集进行研究或开发时,建议引用相关论文,以确保学术规范和数据来源的透明性。
背景与挑战
背景概述
DHC数据集(Devnagari Handwritten Character Dataset)是一个专注于天城文手写字符识别的大规模数据集,由尼泊尔巴克塔普尔的Mount Everest中学的六年级和七年级学生在2015年共同参与创建。该数据集包含36个天城文字符和10个数字,共计46个类别,每个类别包含2000张图像,分为训练集和测试集,分别包含1700张和300张图像。DHC数据集的创建灵感来源于著名的MNIST数据集,但其在样本数量和类别多样性上均超越了MNIST。该数据集不仅适用于字符分类任务,还可用于风格迁移、解耦学习和半监督学习等研究领域。其贡献者通过手动扫描手写字符并进行预处理,为天城文手写字符识别研究提供了宝贵资源。
当前挑战
DHC数据集在解决天城文手写字符识别问题时面临多重挑战。首先,天城文字符的复杂结构和书写风格多样性增加了分类难度,尤其是在不同书写者之间的差异性显著。其次,数据集的构建过程中,手动扫描和预处理步骤耗时且容易引入误差,影响了数据的质量和一致性。此外,尽管数据集规模较大,但在某些类别中,样本的多样性仍显不足,可能导致模型在泛化能力上存在局限。最后,如何将DHC数据集与其他语言的手写字符数据集进行有效对比和融合,也是未来研究中的一个重要挑战。
常用场景
经典使用场景
DHC数据集在字符识别领域具有广泛的应用,特别是在手写天城文字符的自动识别任务中。该数据集包含了36个天城文字符和10个数字,每个类别均有2000张图像,分为训练集和测试集。研究人员可以利用该数据集进行深度学习模型的训练和测试,以提升字符识别的准确率和鲁棒性。
解决学术问题
DHC数据集解决了手写字符识别中的多个学术问题,尤其是在处理多类别、大规模数据集时的挑战。通过提供丰富的样本和类别,该数据集为研究者提供了一个理想的实验平台,用于探索深度学习模型在处理复杂字符识别任务中的性能。此外,数据集中的图像多样性也为研究风格迁移、解耦学习和半监督学习等前沿问题提供了可能。
衍生相关工作
DHC数据集的发布激发了大量相关研究,特别是在手写字符识别和深度学习领域。基于该数据集的研究工作不仅推动了天城文字符识别技术的发展,还为其他语言字符识别提供了借鉴。例如,一些研究利用DHC数据集探索了跨语言字符识别的可能性,进一步扩展了其应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作