数据堂—104,320张韩语和印地语自然场景OCR数据
收藏魔搭社区2025-12-05 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/104320Images-KoreanandHindiOCRDatainNaturalScenes
下载链接
链接失效反馈官方服务:
资源简介:
104,320张韩语和印地语自然场景OCR数据采集场景包括商品包装、海报、车票、提示语、菜单、建筑物标志等。数据多样性包括多种场景、多种拍摄角度、多种光照条件。语言分布为韩语、印地语和英文(少量)。在标注方面,对数据进行行级多边形框 (或四边形框、矩形框)标注、行级内容转写、文本属性(语言种类);列级多边形框 (或四边形框、矩形框)标注、列级内容转写、文本属性(语言种类)。本套韩语和印地语自然场景OCR数据可用韩语和印地语自然场景下的OCR任务
A total of 104,320 natural scene OCR datasets for Korean and Hindi. The data collection scenarios include product packaging, posters, tickets, prompts, menus, building signs, etc. The data exhibits diversity across scenarios, shooting angles, and lighting conditions. The language distribution covers Korean, Hindi, and a small amount of English. For annotation, the data is annotated with line-level polygon boxes (or quadrilateral boxes, rectangular boxes), paired with line-level content transcription and text attributes (language type); it also supports column-level polygon boxes (or quadrilateral boxes, rectangular boxes) annotation, column-level content transcription and text attributes (language type). This Korean and Hindi natural scene OCR dataset can be applied to OCR tasks in Korean and Hindi natural scenes.
提供机构:
maas
创建时间:
2024-05-09
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含104,320张自然场景图像,专为韩语和印地语OCR测试任务设计。数据采集自产品包装、海报、门票等多种场景,涵盖不同角度和光照条件,并提供了行级和列级的框标注、内容转录及语言属性。图像格式为.jpg,标注文件为.json,检测和转录准确率均不低于95%。
以上内容由遇见数据集搜集并总结生成



