Bharat Scene Text Dataset

github2024-08-09 更新2024-08-10 收录

下载链接：

https://github.com/Bhashini-IITJ/BharatSceneTextDataset

下载链接

链接失效反馈

官方服务：

资源简介：

Bharat Scene Text Dataset（BSTD）是一个大规模的场景文本数据集，涵盖13种印度语言和英语。该数据集包含6,582张场景文本图像，具有120,560个单词的多边形边界框标注和100,495个裁剪单词的地面真实文本标注。此数据集旨在扩展场景文本检测和识别系统以适用于印度语言。当前版本的数据集可用于研究场景文本检测和裁剪场景文本单词识别。

Bharat Scene Text Dataset (BSTD) is a large-scale scene text dataset covering 13 Indian languages and English. It contains 6,582 scene text images, with polygonal bounding box annotations for 120,560 words and ground-truth text annotations for 100,495 cropped word instances. This dataset aims to extend scene text detection and recognition systems to Indian languages. The current version of the dataset can be used for research on scene text detection and cropped scene text word recognition.

创建时间：

2024-08-09

原始信息汇总

Bharat Scene Text Dataset

概述

Bharat Scene Text Dataset (BSTD) 是一个大型场景文本数据集，涵盖了13种印度语言和英语。该数据集包含6,582张场景文本图像，具有1,20,560个多边形边界框注释和1,00,495个裁剪单词的地面真实文本注释。该数据集旨在扩展场景文本检测和识别系统以处理印度语言。当前版本的数据集可用于研究场景文本检测和裁剪场景文本单词识别。

数据统计

场景文本检测

总图像数	总检测注释数	训练集	测试集
6,582	1,20,560	94,128	26,432

裁剪单词识别

语言	总识别注释数	训练集	测试集
Assamese	3966	2623	1343
Bengali	6129	4968	1161
English	36891	28778	8113
Gujarati	2649	1956	693
Hindi	18889	14855	4034
Kannada	2934	2241	693
Malayalam	2975	2408	567
Marathi	4977	3932	1045
Meitei	494	381	113
Odia	4198	3176	1022
Punjabi	11104	8544	2560
Tamil	2548	2041	507
Telugu	2709	2227	482
Urdu	32	29	3
总计	100495	78159	22336

任务

任务1：场景文本检测

数据下载

下载链接：detection.zip (约17 GB)

文件结构

Detection/ ├── A/ │ ├── image_xx.jpg │ ├── ... │ └── image_xx.jpg ├── B/ ├── C/ ├── ... ├── M/ └── BSTD_release_v1.json

注释格式

注释文件为BSTD_release_v1.json，格式如下：

json "folderName_image_id": { "annotations": { "polygon_0": { "coordinates": [ [x1, y1], [x2, y2], ..., [xn, yn] ], "text": "text in the current polygon", "script_language": "language of the word present in the polygon." }, ..., "polygon_n": { "coordinates": [ [x1, y1], [x2, y2], ..., [xn, yn] ], "text": "text in the current polygon", "script_language": "language of the word present in the polygon." } }, "url": "url of the image", "image_name": "path to the image", "split": "train/test split", "folderName": "folder of the image" }

任务2：裁剪单词识别

数据下载

下载链接：recognition.zip (约774 MB)

文件结构

Recognition/ ├── train/ │ ├── assamese/ │ │ ├── X_image_name_xx_xx.jpg │ │ ├── ... │ ├── bengali/ │ │ ├── ... │ ├── ... │ └── urdu/ ├── test/ │ ├── assamese/ │ ├── bengali/ │ ├── ... │ └── urdu/ ├── train.csv └── test.csv

注释格式

文件：recognition/train.csv 和 recognition/test.csv

每行包含以下逗号分隔值：

path_to_the_cropped_word_image, recogntion_annotation, script_language

数据可视化

运行以下命令以可视化检测注释：

bash python3 visualise.py <image_path> <path_to_BSTD_release_v1.json>

例如：

bash python3 visualise.py D/image_141.jpg path_to_BSTD_release_v1.json

数据来源

所有图像均来自维基共享资源（Creative Commons Licence, cc-by-sa-4.0）。进一步的检测和识别注释是手动注释的。

致谢

该项目部分由印度政府MeitY支持（项目编号：S/MeitY/AM/20210114），隶属于NLTM-Bhashini。

联系

如有任何疑问，请联系：

引用

@software{BharatSceneTextDataset, author = {Abhirama Subramanyam Penamakuri, Anik De, Anand Mishra}, month = {8}, title = {{BharatSceneTextDataset}}, url = {https://github.com/Abhiram4572/BharatSceneTextDataset}, version = {1.0}, year = {2024} }

搜集汇总

数据集介绍

构建方式

Bharat Scene Text Dataset（BSTD）的构建旨在为场景文本检测和识别系统提供丰富的多语言数据支持。该数据集涵盖了13种印度语言及英语，共包含6,582张场景文本图像，其中包含120,560个多边形边界框标注和100,495个裁剪单词的文本标注。数据集的构建过程包括从Wikimedia Commons收集图像，并进行手动标注，确保了数据的高质量和多样性。

特点

Bharat Scene Text Dataset（BSTD）的主要特点在于其广泛的语言覆盖和精细的标注。该数据集不仅包含了多种印度语言，还涵盖了英语，为多语言场景文本处理提供了宝贵的资源。此外，数据集的标注采用了多边形边界框和文本标注相结合的方式，使得数据在场景文本检测和裁剪单词识别任务中具有高度的适用性。

使用方法

Bharat Scene Text Dataset（BSTD）的使用方法包括下载检测和识别任务的数据集文件，并根据提供的JSON格式文件进行数据解析。用户可以通过提供的Python脚本进行数据可视化和转换，以便于模型训练和评估。此外，数据集还提供了详细的CSV文件，方便用户进行语言识别任务的数据处理和分析。

背景与挑战

背景概述

Bharat Scene Text Dataset (BSTD) 是由印度理工学院焦特布尔分校（IITJ）的研究团队创建的一个大规模场景文本数据集，涵盖了13种印度语言和英语。该数据集于2024年首次公开发布，包含6,582张场景文本图像，具有120,560个多边形边界框注释和100,495个裁剪单词的文本注释。BSTD的核心研究问题是如何扩展场景文本检测和识别系统以适应印度语言。该数据集对多语言场景文本处理领域具有重要影响，为研究人员提供了丰富的资源来探索和改进多语言文本识别技术。

当前挑战

Bharat Scene Text Dataset 面临的挑战主要集中在多语言场景文本检测和识别的复杂性上。首先，数据集涵盖了13种印度语言和英语，每种语言的书写系统和字符集各不相同，增加了模型训练的难度。其次，构建过程中需要对大量图像进行手动注释，确保注释的准确性和一致性是一项耗时且复杂的工作。此外，数据集的多样性和规模要求高效的算法和计算资源来处理和分析，这对研究者和开发者提出了技术上的挑战。

常用场景

经典使用场景

Bharat Scene Text Dataset（BSTD）在场景文本检测和识别领域具有广泛的应用。该数据集涵盖了13种印度语言和英语，包含6,582张场景文本图像，提供了120,560个多边形边界框注释和100,495个裁剪词的文本注释。经典的使用场景包括利用这些注释进行场景文本检测模型的训练和评估，以及通过裁剪词识别任务来提升多语言文本识别系统的性能。

衍生相关工作

基于BSTD数据集，许多相关研究工作得以展开。例如，有研究利用该数据集开发了针对印度语言的场景文本翻译模型，实现了从一种印度语言到另一种语言的文本翻译。此外，还有研究基于此数据集提出了新的多语言文本识别算法，显著提升了识别精度和速度。这些衍生工作进一步丰富了场景文本处理领域的研究内容。

数据集最近研究