AUTNTdataset
收藏github2023-06-21 更新2024-05-31 收录
下载链接:
https://github.com/iilabau/AUTNTdataset
下载链接
链接失效反馈官方服务:
资源简介:
AUTNT数据集包含组件级别的多种脚本文本和非文本图像。该数据集有三个主要用途:(i) 组件级图像分类,(ii) 脚本识别,(iii) 字符识别。数据集分为两类:复杂文档级文本组件和场景级文本组件,以及非文本组件。训练和测试集按照5:1的比例划分,包含多种脚本如拉丁文、孟加拉文和梵文。
The AUTNT dataset encompasses a diverse array of script texts and non-textual images at the component level. This dataset serves three primary purposes: (i) component-level image classification, (ii) script recognition, and (iii) character recognition. It is categorized into two main types: complex document-level text components and scene-level text components, alongside non-text components. The training and testing sets are divided in a 5:1 ratio, featuring a variety of scripts including Latin, Bengali, and Sanskrit.
创建时间:
2019-03-17
原始信息汇总
数据集概述
名称: AUTNTdataset
描述: AUTNTdataset包含多脚本文本和非文本图像,主要用于组件级图像分类、脚本识别和字符识别。数据集中的组件图像来自多种来源和条件,确保了实际应用中的适用性。
数据集组成:
- 总图像数: 10771
- 文本图像数: 7890
- 非文本图像数: 2881
数据集划分:
- 训练集: 6314文本图像,2305非文本图像
- 测试集: 1576文本图像,576非文本图像
文本组件详细信息:
- 文档类型:
- Latin: 训练集1258,测试集314,总计1572
- Bengali: 训练集1002,测试集251,总计1253
- Devanagari: 训练集1004,测试集250,总计1254
- 场景类型:
- Latin: 训练集1759,测试集439,总计2198
- Bengali: 训练集1011,测试集251,总计1262
- Devanagari: 训练集280,测试集71,总计351
非文本组件详细信息:
- 总数: 2881
- 训练集: 2305
- 测试集: 576
相关论文
- T. Khan, A. F. Mollah, “AUTNT - A component level dataset for text non-text classification and benchmarking with novel script invariant feature descriptors and D-CNN”, Multimedia Tools and Applications, vol. 78, no. 22, pp. 32159–32186, 2019.
基准测试结果
文本非文本分类:
- 文档类型:
- Precision: 0.990
- Recall: 0.973
- F-Score: 0.981
- Accuracy: 97.84%
- 场景类型:
- Precision: 0.981
- Recall: 0.931
- F-Score: 0.955
- Accuracy: 95.14%
- 文档和场景类型组合:
- Precision: 0.987
- Recall: 0.961
- F-Score: 0.974
- Accuracy: 96.28%
脚本识别:
- 文档类型:
- Precision: 0.9239
- Recall: 0.9157
- F-Score: 0.9170
- Accuracy: 92.02%
- 场景类型:
- Precision: 0.8139
- Recall: 0.7940
- F-Score: 0.8038
- Accuracy: 89.49%
- 文档和场景类型组合:
- Precision: 0.9149
- Recall: 0.9193
- F-Score: 0.9169
- Accuracy: 92.51%
贡献者
- Tauseef Khan
- Rahamatulla
- Munsi Md Iftabudin
- Mst Fatema Rahman
- Sk Shamim
- Dr. Ayatullah Faruk Mollah
搜集汇总
数据集介绍

构建方式
AUTNT数据集的构建过程体现了多源数据采集与精细分类的理念。该数据集从复杂文档和自然场景中提取了10771个组件图像,其中7890个为文本组件,2881个为非文本组件。为确保数据集的广泛适用性,文本组件涵盖了拉丁文、天城文和孟加拉文三种文字,且图像具有尺度不变性和多方向性。数据集按5:1的比例划分为训练集和测试集,训练集包含6314个文本组件和2305个非文本组件,测试集则包含1576个文本组件和576个非文本组件。每个组件均附有相应的真实标签,便于后续的模型训练与评估。
特点
AUTNT数据集以其多样性和实用性著称。首先,数据集涵盖了文档级和场景级两种来源的文本组件,分别从复杂文档和自然环境中提取,确保了数据在实际应用中的广泛适用性。其次,数据集支持多脚本识别,包含拉丁文、天城文和孟加拉文三种文字,为多语言文本处理提供了丰富的研究素材。此外,组件图像具有尺度不变性和多方向性,背景复杂且光照条件多样,进一步提升了数据集的挑战性和研究价值。非文本组件的加入也为文本与非文本分类任务提供了重要支持。
使用方法
AUTNT数据集的使用方法主要围绕其三大核心功能展开:组件级图像分类、脚本识别和字符识别。研究人员可通过加载训练集和测试集,利用提供的真实标签进行模型训练与评估。对于文本与非文本分类任务,数据集提供了文档级和场景级两种场景的组件图像,便于研究不同场景下的分类性能。在脚本识别任务中,数据集支持拉丁文、天城文和孟加拉文的识别,可用于多语言文本处理的研究。此外,数据集的尺度不变性和多方向性特性为字符识别任务提供了丰富的实验素材。通过合理划分训练集和测试集,研究人员可全面评估模型在不同任务中的表现。
背景与挑战
背景概述
AUTNTdataset由Aliah大学的研究团队于2019年创建,旨在为多脚本文本与非文本图像的组件级分类、脚本识别和字符识别提供高质量的数据支持。该数据集由Tauseef Khan和Ayatullah Faruk Mollah等研究人员主导开发,涵盖了拉丁文、梵文和孟加拉文等多种脚本的文本组件,以及来自复杂文档和自然场景的非文本组件。数据集的设计充分考虑了实际应用场景的多样性,确保了其在无约束环境下的适用性。AUTNTdataset的发布为图像分类和脚本识别领域的研究提供了重要的基准数据,推动了相关算法的发展。
当前挑战
AUTNTdataset在解决文本与非文本分类、脚本识别等领域的挑战时,面临的主要问题包括如何处理多脚本、多方向、多背景的复杂图像数据。由于数据集中的图像来源广泛,涵盖了文档和自然场景,图像的光照、背景复杂度以及文本方向的变化为分类和识别任务带来了显著的难度。此外,构建过程中,研究人员需要确保数据集的多样性和代表性,同时还要处理图像标注的准确性和一致性。这些挑战不仅要求算法具备强大的泛化能力,还需要在数据预处理和特征提取阶段进行精细的设计与优化。
常用场景
经典使用场景
AUTNT数据集在图像处理和模式识别领域具有广泛的应用,尤其是在多脚本文本与非文本图像的分类任务中。该数据集通过提供来自复杂文档和自然场景的组件级图像,支持研究者进行文本与非文本的分类、脚本识别以及字符识别等任务。其多样化的数据来源和复杂的背景条件使得该数据集能够模拟真实世界中的复杂环境,为算法开发提供了丰富的实验材料。
解决学术问题
AUTNT数据集解决了多脚本文本识别中的关键问题,特别是在复杂背景和不同光照条件下的文本与非文本分类。通过提供包含拉丁文、梵文和孟加拉文的多脚本文本组件,该数据集为研究者提供了一个标准化的基准,用于评估和比较不同算法的性能。此外,其组件级图像分类和脚本识别的任务设计,推动了深度学习模型在跨语言文本处理中的应用,显著提升了相关领域的学术研究水平。
衍生相关工作
AUTNT数据集衍生了一系列经典的研究工作,特别是在文本与非文本分类以及脚本识别领域。例如,Khan等人基于该数据集提出了基于深度卷积神经网络(D-CNN)的文本分类方法,并在Multimedia Tools and Applications期刊上发表了相关研究成果。此外,该数据集还被用于开发新的脚本不变特征描述符,进一步推动了多脚本文本识别技术的发展。这些工作不仅验证了数据集的实用性,也为后续研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



