அச்சு தமிழ் எழுத்துணரி செயற்கை நூண்ணறிவு பயிற்சித் தரவுத்தளம்

github2024-03-04 更新2024-05-31 收录

下载链接：

https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在生成包含347种Tamil字母形式的标记数据集，包括Uyir、Mei、Uyirmei，用于训练基于此数据的分类器。数据集包括60000个784维的数据和标签数组，涵盖所有13个Tamil Uyir + Ayudham字母的图像，共形成4616个数据集。使用50种字体时，需要创建约93个修改后的数据集，每个字体对应13个字母。

This project aims to generate a labeled dataset comprising 347 forms of Tamil letters, including Uyir, Mei, and Uyirmei, for training classifiers based on this data. The dataset includes 60,000 data points of 784 dimensions along with label arrays, covering images of all 13 Tamil Uyir + Ayudham letters, resulting in a total of 4,616 datasets. When using 50 fonts, approximately 93 modified datasets need to be created, each corresponding to the 13 letters per font.

创建时间：

2018-04-25

原始信息汇总

数据集概述

数据集目的

生成带有标签的泰米尔字母数据集，包括Uyir、Mei、Uyirmei三种形式，共计347种字母形态，用于训练分类器。

数据集内容

包含347种泰米尔字母的图像数据。
部分数据集中的图像存在格式问题，如图像尺寸不符合28x28像素，需要从训练数据中移除这些异常值。

数据集使用的技术

使用Keras框架中的CNN模型进行训练，通过tfkeras_demo.py脚本实现，该模型在训练集上达到92%的准确率，在测试集上达到82%的准确率。

数据集的构成

原始数据集包含60000张784像素的字母图像及其标签。
通过使用50种字体，可以生成约93个修改后的数据集，每个数据集包含13种字母。
最终的数据集版本展示为16x13的28x28像素图像的复合图像，尺寸为448x364。

数据集的资源

使用Thamizha泰米尔字体和其他多种编码的泰米尔字体。
需要创建一个字体列表作为配置文件。

数据集的处理算法

使用现有字体资源，结合旋转和翻译操作，生成包含旋转、翻译和两者结合的数据集。
采用循环队列方法训练数据，确保每个标签有4616个样本，分布均匀。

数据集的存储需求

数据集的矩阵大小为60000x784的浮点数，占用内存约324MB。

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在生成泰米尔字母的标注数据集，涵盖347种字母形式，包括Uyir、Mei和Uyirmei。通过使用多种泰米尔字体资源，如Thamizha Tamil字体和Apple Mac OS-X字体，数据集生成了大量字母图像。此外，采用了旋转、平移等图像变换技术，进一步扩充了数据集的多样性。最终，数据集以28x28像素的图像形式呈现，并通过Keras框架下的卷积神经网络进行模型训练。

特点

该数据集的特点在于其广泛覆盖了泰米尔字母的多种形式，确保了数据的多样性和代表性。数据集中的图像经过精心处理，避免了异常值（outliers）的干扰，确保了训练数据的质量。此外，数据集还提供了丰富的字体资源，支持多种编码方式，为泰米尔字母的识别研究提供了坚实的基础。数据集的规模较大，包含60000个字母图像，能够满足深度学习模型训练的需求。

使用方法

该数据集的使用方法主要包括通过Keras框架进行模型训练。用户可以使用提供的tfkeras_demo.py脚本，训练一个简单的两层卷积神经网络（CNN），该模型在训练数据上达到了92%的准确率，在测试数据上达到了82%的准确率。此外，用户还可以根据需要对数据集进行进一步的处理，如去除异常值、调整图像大小等，以优化模型的训练效果。数据集的使用还支持多种字体资源的配置，用户可以根据需求选择合适的字体进行模型训练。

背景与挑战

背景概述

அச்சு தமிழ் எழுத்துணரி செயற்கை நூண்ணறிவு பயிற்சித் தரவுத்தளம்是一个专注于泰米尔字母识别的开源数据集，旨在为泰米尔字母的Uyir、Mei和Uyirmei等347种字母形式生成标注数据，以支持基于这些数据的分类器训练。该项目由多个研究人员和机构共同推动，采用MIT许可证开源，旨在通过深度学习模型提升泰米尔字母的自动识别能力。该数据集的构建不仅为泰米尔语的自然语言处理提供了重要资源，也为多语言文本识别领域的研究提供了新的视角和工具。

当前挑战

该数据集在构建过程中面临多重挑战。首先，泰米尔字母的复杂形态和多样性使得数据标注和分类器的训练变得尤为困难，尤其是在处理Uyir、Mei和Uyirmei等不同字母形式时。其次，数据集中存在部分异常样本，例如字母图像未正确裁剪或超出28x28像素范围，这些异常数据需要被识别并剔除，以确保训练数据的质量。此外，数据集的生成依赖于多种泰米尔字体的支持，而字体资源的可用性和兼容性也成为构建过程中的一大挑战。最后，如何在有限的计算资源下高效处理大规模数据（如60000x784的矩阵）并确保模型的训练效果，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

该数据集主要用于训练和测试泰米尔字母的识别模型，特别是在深度学习领域。通过提供347种泰米尔字母形式的标注数据，研究人员能够构建和优化卷积神经网络（CNN）模型，以实现高精度的字母分类。数据集中的图像经过预处理，确保每张图像均为28x28像素，便于直接应用于标准的深度学习框架。

衍生相关工作

该数据集衍生了一系列经典的研究工作，特别是在泰米尔字母识别和深度学习领域。例如，基于该数据集的研究开发了高效的卷积神经网络模型，实现了高达92%的训练精度和82%的测试精度。此外，研究人员还探索了数据增强技术，如旋转和平移，以进一步提升模型的鲁棒性。这些工作为泰米尔语的自然语言处理和多语言OCR系统的发展提供了重要的技术基础。

数据集最近研究