DHC Dataset

github2024-02-25 更新2024-05-31 收录

下载链接：

https://github.com/sauravrt/DHCD_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DHC数据集包含46个类别[36个字符类别和10个数字类别]的Devnagari手写脚本。每个类别有2000张图像，分为训练集和测试集，分别包含1700张和300张图像。该数据集在样本和类别数量上都超过著名的MNIST数据集。

The DHC dataset comprises 46 categories [36 character categories and 10 numerical categories] of Devanagari handwritten scripts. Each category contains 2000 images, divided into a training set and a test set, consisting of 1700 and 300 images respectively. This dataset surpasses the renowned MNIST dataset in both the number of samples and categories.

创建时间：

2018-02-28

原始信息汇总

Devnagari Handwritten Character (DHC) Dataset 概述

数据集描述

字符和数字数量: 包含36个字符和10个数字。
图像示例:
- 36个字符的样本图像。
- 10个数字的样本图像。
数据集结构: 包含46个类别（36个字符类别和10个数字类别），每个类别有2000张图像，分为训练集（1700张）和测试集（300张）。
数据集规模: 相较于著名的MNIST数据集，本数据集在样本数量和类别数量上更为庞大。

数据集用途

主要用于字符分类任务。
可探索其他应用，如风格转换、解耦、半监督学习等。

贡献者

数据集由尼泊尔Bhaktapur的Mount Everest Higher Secondary School的6年级和7年级学生在2015年通过手写字符并手动扫描的方式贡献。

引用信息

若在研究中使用此数据集，请按以下方式引用： bibtex @inproceedings{acharya2015deep, title={Deep learning based large scale handwritten Devanagari character recognition}, author={Acharya, Shailesh and Pant, Ashok Kumar and Gyawali, Prashnna Kumar}, booktitle={Software, Knowledge, Information Management and Applications (SKIMA), 2015 9th International Conference on}, pages={1--6}, year={2015}, organization={IEEE} }

搜集汇总

数据集介绍

构建方式

DHC数据集构建过程中，尼泊尔巴克塔普尔市Mount Everest中学的六年级和七年级学生在2015年自愿手写天城文字符，这些字符随后通过手动扫描进行数字化处理。数据集包含36个天城文字符和10个数字，每个类别包含2000张图像，分为训练集和测试集，分别包含1700张和300张图像。此外，数据集还经过了一系列预处理步骤，以确保数据的质量和一致性。

特点

DHC数据集以其丰富的类别和样本量著称，包含46个类别（36个字符和10个数字），每个类别有2000张图像，总样本量远超著名的MNIST数据集。数据集中的图像展示了天城文字符和数字的多样性，适合用于字符分类、风格转换、解耦学习等多种机器学习任务。数据集还提供了PyTorch的数据加载器，便于与其他深度学习框架如TensorFlow、Keras等集成。

使用方法

使用DHC数据集时，用户可以通过提供的PyTorch数据加载器轻松加载数据，并将其转换为其他深度学习框架所需的格式。数据集适用于字符分类任务，也可用于探索风格转换、解耦学习等复杂问题。在使用该数据集进行研究或开发时，建议引用相关论文，以确保学术规范和数据来源的透明性。

背景与挑战

背景概述

DHC数据集（Devnagari Handwritten Character Dataset）是一个专注于天城文手写字符识别的大规模数据集，由尼泊尔巴克塔普尔的Mount Everest中学的六年级和七年级学生在2015年共同参与创建。该数据集包含36个天城文字符和10个数字，共计46个类别，每个类别包含2000张图像，分为训练集和测试集，分别包含1700张和300张图像。DHC数据集的创建灵感来源于著名的MNIST数据集，但其在样本数量和类别多样性上均超越了MNIST。该数据集不仅适用于字符分类任务，还可用于风格迁移、解耦学习和半监督学习等研究领域。其贡献者通过手动扫描手写字符并进行预处理，为天城文手写字符识别研究提供了宝贵资源。

当前挑战

DHC数据集在解决天城文手写字符识别问题时面临多重挑战。首先，天城文字符的复杂结构和书写风格多样性增加了分类难度，尤其是在不同书写者之间的差异性显著。其次，数据集的构建过程中，手动扫描和预处理步骤耗时且容易引入误差，影响了数据的质量和一致性。此外，尽管数据集规模较大，但在某些类别中，样本的多样性仍显不足，可能导致模型在泛化能力上存在局限。最后，如何将DHC数据集与其他语言的手写字符数据集进行有效对比和融合，也是未来研究中的一个重要挑战。

常用场景

经典使用场景

DHC数据集在字符识别领域具有广泛的应用，特别是在手写天城文字符的自动识别任务中。该数据集包含了36个天城文字符和10个数字，每个类别均有2000张图像，分为训练集和测试集。研究人员可以利用该数据集进行深度学习模型的训练和测试，以提升字符识别的准确率和鲁棒性。

解决学术问题

DHC数据集解决了手写字符识别中的多个学术问题，尤其是在处理多类别、大规模数据集时的挑战。通过提供丰富的样本和类别，该数据集为研究者提供了一个理想的实验平台，用于探索深度学习模型在处理复杂字符识别任务中的性能。此外，数据集中的图像多样性也为研究风格迁移、解耦学习和半监督学习等前沿问题提供了可能。

衍生相关工作

DHC数据集的发布激发了大量相关研究，特别是在手写字符识别和深度学习领域。基于该数据集的研究工作不仅推动了天城文字符识别技术的发展，还为其他语言字符识别提供了借鉴。例如，一些研究利用DHC数据集探索了跨语言字符识别的可能性，进一步扩展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集