Bharat Scene Text Dataset
收藏Bharat Scene Text Dataset
概述
Bharat Scene Text Dataset (BSTD) 是一个大型场景文本数据集,涵盖了13种印度语言和英语。该数据集包含6,582张场景文本图像,具有1,20,560个多边形边界框注释和1,00,495个裁剪单词的地面真实文本注释。该数据集旨在扩展场景文本检测和识别系统以处理印度语言。当前版本的数据集可用于研究场景文本检测和裁剪场景文本单词识别。
数据统计
场景文本检测
| 总图像数 | 总检测注释数 | 训练集 | 测试集 |
|---|---|---|---|
| 6,582 | 1,20,560 | 94,128 | 26,432 |
裁剪单词识别
| 语言 | 总识别注释数 | 训练集 | 测试集 |
|---|---|---|---|
| Assamese | 3966 | 2623 | 1343 |
| Bengali | 6129 | 4968 | 1161 |
| English | 36891 | 28778 | 8113 |
| Gujarati | 2649 | 1956 | 693 |
| Hindi | 18889 | 14855 | 4034 |
| Kannada | 2934 | 2241 | 693 |
| Malayalam | 2975 | 2408 | 567 |
| Marathi | 4977 | 3932 | 1045 |
| Meitei | 494 | 381 | 113 |
| Odia | 4198 | 3176 | 1022 |
| Punjabi | 11104 | 8544 | 2560 |
| Tamil | 2548 | 2041 | 507 |
| Telugu | 2709 | 2227 | 482 |
| Urdu | 32 | 29 | 3 |
| 总计 | 100495 | 78159 | 22336 |
任务
任务1:场景文本检测
数据下载
下载链接:detection.zip (约17 GB)
文件结构
Detection/ ├── A/ │ ├── image_xx.jpg │ ├── ... │ └── image_xx.jpg ├── B/ ├── C/ ├── ... ├── M/ └── BSTD_release_v1.json
注释格式
注释文件为BSTD_release_v1.json,格式如下:
json "folderName_image_id": { "annotations": { "polygon_0": { "coordinates": [ [x1, y1], [x2, y2], ..., [xn, yn] ], "text": "text in the current polygon", "script_language": "language of the word present in the polygon." }, ..., "polygon_n": { "coordinates": [ [x1, y1], [x2, y2], ..., [xn, yn] ], "text": "text in the current polygon", "script_language": "language of the word present in the polygon." } }, "url": "url of the image", "image_name": "path to the image", "split": "train/test split", "folderName": "folder of the image" }
任务2:裁剪单词识别
数据下载
下载链接:recognition.zip (约774 MB)
文件结构
Recognition/ ├── train/ │ ├── assamese/ │ │ ├── X_image_name_xx_xx.jpg │ │ ├── ... │ ├── bengali/ │ │ ├── ... │ ├── ... │ └── urdu/ ├── test/ │ ├── assamese/ │ ├── bengali/ │ ├── ... │ └── urdu/ ├── train.csv └── test.csv
注释格式
文件:recognition/train.csv 和 recognition/test.csv
每行包含以下逗号分隔值:
path_to_the_cropped_word_image, recogntion_annotation, script_language
数据可视化
运行以下命令以可视化检测注释:
bash python3 visualise.py <image_path> <path_to_BSTD_release_v1.json>
例如:
bash python3 visualise.py D/image_141.jpg path_to_BSTD_release_v1.json
数据来源
所有图像均来自维基共享资源(Creative Commons Licence, cc-by-sa-4.0)。进一步的检测和识别注释是手动注释的。
致谢
该项目部分由印度政府MeitY支持(项目编号:S/MeitY/AM/20210114),隶属于NLTM-Bhashini。
联系
如有任何疑问,请联系:
引用
@software{BharatSceneTextDataset, author = {Abhirama Subramanyam Penamakuri, Anik De, Anand Mishra}, month = {8}, title = {{BharatSceneTextDataset}}, url = {https://github.com/Abhiram4572/BharatSceneTextDataset}, version = {1.0}, year = {2024} }




