five

Bharat Scene Text Dataset

收藏
github2024-08-09 更新2024-08-10 收录
下载链接:
https://github.com/Bhashini-IITJ/BharatSceneTextDataset
下载链接
链接失效反馈
官方服务:
资源简介:
Bharat Scene Text Dataset(BSTD)是一个大规模的场景文本数据集,涵盖13种印度语言和英语。该数据集包含6,582张场景文本图像,具有120,560个单词的多边形边界框标注和100,495个裁剪单词的地面真实文本标注。此数据集旨在扩展场景文本检测和识别系统以适用于印度语言。当前版本的数据集可用于研究场景文本检测和裁剪场景文本单词识别。

Bharat Scene Text Dataset (BSTD) is a large-scale scene text dataset covering 13 Indian languages and English. It contains 6,582 scene text images, with polygonal bounding box annotations for 120,560 words and ground-truth text annotations for 100,495 cropped word instances. This dataset aims to extend scene text detection and recognition systems to Indian languages. The current version of the dataset can be used for research on scene text detection and cropped scene text word recognition.
创建时间:
2024-08-09
原始信息汇总

Bharat Scene Text Dataset

概述

Bharat Scene Text Dataset (BSTD) 是一个大型场景文本数据集,涵盖了13种印度语言和英语。该数据集包含6,582张场景文本图像,具有1,20,560个多边形边界框注释和1,00,495个裁剪单词的地面真实文本注释。该数据集旨在扩展场景文本检测和识别系统以处理印度语言。当前版本的数据集可用于研究场景文本检测和裁剪场景文本单词识别。

数据统计

场景文本检测

总图像数 总检测注释数 训练集 测试集
6,582 1,20,560 94,128 26,432

裁剪单词识别

语言 总识别注释数 训练集 测试集
Assamese 3966 2623 1343
Bengali 6129 4968 1161
English 36891 28778 8113
Gujarati 2649 1956 693
Hindi 18889 14855 4034
Kannada 2934 2241 693
Malayalam 2975 2408 567
Marathi 4977 3932 1045
Meitei 494 381 113
Odia 4198 3176 1022
Punjabi 11104 8544 2560
Tamil 2548 2041 507
Telugu 2709 2227 482
Urdu 32 29 3
总计 100495 78159 22336

任务

任务1:场景文本检测

数据下载

下载链接:detection.zip (约17 GB)

文件结构

Detection/ ├── A/ │ ├── image_xx.jpg │ ├── ... │ └── image_xx.jpg ├── B/ ├── C/ ├── ... ├── M/ └── BSTD_release_v1.json

注释格式

注释文件为BSTD_release_v1.json,格式如下:

json "folderName_image_id": { "annotations": { "polygon_0": { "coordinates": [ [x1, y1], [x2, y2], ..., [xn, yn] ], "text": "text in the current polygon", "script_language": "language of the word present in the polygon." }, ..., "polygon_n": { "coordinates": [ [x1, y1], [x2, y2], ..., [xn, yn] ], "text": "text in the current polygon", "script_language": "language of the word present in the polygon." } }, "url": "url of the image", "image_name": "path to the image", "split": "train/test split", "folderName": "folder of the image" }

任务2:裁剪单词识别

数据下载

下载链接:recognition.zip (约774 MB)

文件结构

Recognition/ ├── train/ │ ├── assamese/ │ │ ├── X_image_name_xx_xx.jpg │ │ ├── ... │ ├── bengali/ │ │ ├── ... │ ├── ... │ └── urdu/ ├── test/ │ ├── assamese/ │ ├── bengali/ │ ├── ... │ └── urdu/ ├── train.csv └── test.csv

注释格式

文件:recognition/train.csvrecognition/test.csv

每行包含以下逗号分隔值:

path_to_the_cropped_word_image, recogntion_annotation, script_language

数据可视化

运行以下命令以可视化检测注释:

bash python3 visualise.py <image_path> <path_to_BSTD_release_v1.json>

例如:

bash python3 visualise.py D/image_141.jpg path_to_BSTD_release_v1.json

数据来源

所有图像均来自维基共享资源(Creative Commons Licence, cc-by-sa-4.0)。进一步的检测和识别注释是手动注释的。

致谢

该项目部分由印度政府MeitY支持(项目编号:S/MeitY/AM/20210114),隶属于NLTM-Bhashini。

联系

如有任何疑问,请联系:

引用

@software{BharatSceneTextDataset, author = {Abhirama Subramanyam Penamakuri, Anik De, Anand Mishra}, month = {8}, title = {{BharatSceneTextDataset}}, url = {https://github.com/Abhiram4572/BharatSceneTextDataset}, version = {1.0}, year = {2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
Bharat Scene Text Dataset(BSTD)的构建旨在为场景文本检测和识别系统提供丰富的多语言数据支持。该数据集涵盖了13种印度语言及英语,共包含6,582张场景文本图像,其中包含120,560个多边形边界框标注和100,495个裁剪单词的文本标注。数据集的构建过程包括从Wikimedia Commons收集图像,并进行手动标注,确保了数据的高质量和多样性。
特点
Bharat Scene Text Dataset(BSTD)的主要特点在于其广泛的语言覆盖和精细的标注。该数据集不仅包含了多种印度语言,还涵盖了英语,为多语言场景文本处理提供了宝贵的资源。此外,数据集的标注采用了多边形边界框和文本标注相结合的方式,使得数据在场景文本检测和裁剪单词识别任务中具有高度的适用性。
使用方法
Bharat Scene Text Dataset(BSTD)的使用方法包括下载检测和识别任务的数据集文件,并根据提供的JSON格式文件进行数据解析。用户可以通过提供的Python脚本进行数据可视化和转换,以便于模型训练和评估。此外,数据集还提供了详细的CSV文件,方便用户进行语言识别任务的数据处理和分析。
背景与挑战
背景概述
Bharat Scene Text Dataset (BSTD) 是由印度理工学院焦特布尔分校(IITJ)的研究团队创建的一个大规模场景文本数据集,涵盖了13种印度语言和英语。该数据集于2024年首次公开发布,包含6,582张场景文本图像,具有120,560个多边形边界框注释和100,495个裁剪单词的文本注释。BSTD的核心研究问题是如何扩展场景文本检测和识别系统以适应印度语言。该数据集对多语言场景文本处理领域具有重要影响,为研究人员提供了丰富的资源来探索和改进多语言文本识别技术。
当前挑战
Bharat Scene Text Dataset 面临的挑战主要集中在多语言场景文本检测和识别的复杂性上。首先,数据集涵盖了13种印度语言和英语,每种语言的书写系统和字符集各不相同,增加了模型训练的难度。其次,构建过程中需要对大量图像进行手动注释,确保注释的准确性和一致性是一项耗时且复杂的工作。此外,数据集的多样性和规模要求高效的算法和计算资源来处理和分析,这对研究者和开发者提出了技术上的挑战。
常用场景
经典使用场景
Bharat Scene Text Dataset(BSTD)在场景文本检测和识别领域具有广泛的应用。该数据集涵盖了13种印度语言和英语,包含6,582张场景文本图像,提供了120,560个多边形边界框注释和100,495个裁剪词的文本注释。经典的使用场景包括利用这些注释进行场景文本检测模型的训练和评估,以及通过裁剪词识别任务来提升多语言文本识别系统的性能。
衍生相关工作
基于BSTD数据集,许多相关研究工作得以展开。例如,有研究利用该数据集开发了针对印度语言的场景文本翻译模型,实现了从一种印度语言到另一种语言的文本翻译。此外,还有研究基于此数据集提出了新的多语言文本识别算法,显著提升了识别精度和速度。这些衍生工作进一步丰富了场景文本处理领域的研究内容。
数据集最近研究
最新研究方向
近年来,Bharat Scene Text Dataset(BSTD)在多语言场景文本检测与识别领域引起了广泛关注。该数据集涵盖了13种印度语言及英语,为研究者提供了丰富的多语言文本数据资源。当前的研究主要集中在提升多语言场景文本检测的准确性和效率,以及开发能够处理多种语言的端到端文本识别系统。此外,随着多语言文本翻译需求的增加,BSTD也被用于研究从一种语言到另一种语言的场景文本翻译技术。这些研究不仅推动了多语言文本处理技术的发展,也为跨语言信息检索和多语言内容生成提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作