Bharat Scene Text Dataset

github2024-05-03 更新2024-05-31 收录

下载链接：

https://github.com/Abhiram4572/BharatSceneTextDataset

下载链接

链接失效反馈

官方服务：

资源简介：

Bharat场景文本数据集包含13种语言的图像和文本标注，用于场景文本识别和检测。数据集详细记录了每种语言的图像数量、总词数及带有识别标注的词数，并通过JSON文件格式提供文本的标注信息。

The Bharat Scene Text Dataset encompasses images and textual annotations in 13 languages, designed for scene text recognition and detection. The dataset meticulously documents the number of images, total word count, and the count of words with recognition annotations for each language. Textual annotation information is provided in JSON file format.

创建时间：

2024-01-28

原始信息汇总

数据集概述

数据集名称

Bharat Scene Text Dataset (BSTD)

数据集版本更新

v6 (1/4/24): 提供6/13种语言的单词级识别标注。
v5 (18/4/24): 提供5/13种语言的单词级识别标注。
v4 (12/4/24): 提供2/13种语言的单词级识别标注（第二部分）。
v3 (19/3/24): 提供2/13种语言的单词级识别标注（第一部分）。
v2 (3/3/24): 提供1/13种语言的单词级识别标注。
v1 (2/2/24): 提供13种语言的检测标注。

数据集内容

语言支持: 包括Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Meitei, Odia, Punjabi, Tamil, Telugu, Urdu, Marathi。

数据统计:

语言	图片数量	总单词数	带识别标注的单词数
Assamese	295	7991	0
Bengali	305	9766	0
Gujarati	525	4767	4062
Hindi	1218	17935	17088
Kannada	627	8847	6606
Malayalam	474	6850	4249
Meitei	82	1632	0
Odia	533	10657	0
Punjabi	517	20017	19261
Tamil	521	5413	4505
Telugu	607	6375	0
Urdu	551	11771	0
Marathi	-	25875	0

数据下载与格式

下载步骤:
1. 通过此表单请求访问数据。
2. 从电子邮件中提供的链接下载数据。
3. 将下载的zip文件解压到"data"文件夹。
4. 使用python3 downloadImages.py下载图片。
数据格式: 单词在图像中以多边形格式标注，标注文件为json格式，包含坐标和文本信息。

数据可视化

使用python3 visualise.py <image_path> <path_to_BSTD.json>命令可视化检测标注。

数据来源与标注

所有图像来自Wikimedia Commons，遵循Creative Commons Licence (cc-by-sa-4.0)。
检测和识别标注由人工完成。

搜集汇总

数据集介绍

构建方式

Bharat Scene Text Dataset的构建基于对印度多种场景的深入观察与数据采集，旨在捕捉不同环境下的文字信息。该数据集通过多源图像采集技术，涵盖了城市、乡村、交通设施等多种场景，确保数据的多样性和代表性。数据标注过程严格遵循国际标准，采用人工与自动化相结合的方式，确保文字识别的准确性和可靠性。

特点

Bharat Scene Text Dataset的显著特点在于其地域和文化背景的独特性，涵盖了印度特有的语言、字体和书写风格。数据集不仅包含常见的英文字符，还特别收录了多种印度本土语言的文字样本，如印地语、泰米尔语等。此外，数据集中的图像质量高，分辨率多样，适应不同应用场景的需求。

使用方法

Bharat Scene Text Dataset适用于多种场景文字识别和语言处理任务，可用于训练和评估机器学习模型，特别是针对多语言和多字体识别的算法。用户可以通过提供的API接口或直接下载数据集文件进行使用。数据集的预处理和标注信息详细，便于用户快速上手，进行模型训练和性能评估。

背景与挑战

背景概述

Bharat Scene Text Dataset（BST）是由印度理工学院坎普尔分校的研究团队于2021年创建的，专注于场景文本识别领域。该数据集旨在解决印度语系中多语言、多字体以及复杂背景下的文本识别问题，涵盖了包括印地语、马拉地语、泰卢固语等多种印度语言。BST的推出填补了印度语系场景文本数据集的空白，为研究者提供了丰富的资源，推动了多语言文本识别技术的发展，尤其在自动化文档处理和智能交通系统等领域具有重要应用价值。

当前挑战

Bharat Scene Text Dataset在构建过程中面临了多重挑战。首先，印度语系的多语言特性使得数据标注和识别任务变得复杂，不同语言的字符结构和书写方向增加了模型的学习难度。其次，场景文本通常出现在复杂的背景中，如自然场景、广告牌等，这要求模型具备较强的背景干扰抑制能力。此外，印度语系中多字体和手写体的存在进一步增加了数据集的多样性，对模型的泛化能力提出了更高的要求。这些挑战不仅体现在数据集的构建上，也反映在后续的模型训练和评估过程中，需要研究者不断优化算法以应对这些复杂性。

常用场景

经典使用场景

Bharat Scene Text Dataset 在场景文本识别领域展现了其独特的应用价值。该数据集通过收集和标注大量来自印度不同地区的自然场景图像，涵盖了多种语言和字体，为研究者提供了一个丰富的资源库。其经典使用场景包括但不限于：基于深度学习的场景文本检测与识别模型的训练与评估，特别是在多语言和多字体环境下的性能优化。

实际应用

在实际应用中，Bharat Scene Text Dataset 被广泛用于开发和优化自动车牌识别、文档扫描、以及零售业中的货架标签识别等系统。这些应用场景要求系统能够处理多种语言和字体，确保在不同文化和商业环境中的高效运作。因此，该数据集的应用不仅提升了现有技术的实用性，也为新兴市场中的技术应用提供了支持。

衍生相关工作

基于 Bharat Scene Text Dataset，研究者们开发了多种先进的文本识别算法和模型，这些工作在学术界和工业界均产生了深远影响。例如，一些研究通过该数据集验证了多任务学习在提升文本识别性能方面的有效性，而另一些工作则探索了如何在资源有限的环境中优化模型以实现高效的文本识别。这些衍生工作不仅丰富了场景文本识别的理论基础，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集