five

104,320张韩语和印地语自然场景OCR数据【数据堂】

收藏
OpenDataLab2024-05-31 更新2024-06-01 收录
下载链接:
https://opendatalab.org.cn/shujutang/shujutang1254
下载链接
链接失效反馈
官方服务:
资源简介:
104,320张韩语和印地语自然场景OCR数据采集场景包括商品包装、海报、车票、提示语、菜单、建筑物标志等。数据多样性包括多种场景、多种拍摄角度、多种光照条件。语言分布为韩语、印地语和英文(少量)。在标注方面,对数据进行行级多边形框 (或四边形框、矩形框)标注、行级内容转写、文本属性(语言种类);列级多边形框 (或四边形框、矩形框)标注、列级内容转写、文本属性(语言种类)。本套韩语和印地语自然场景OCR数据可用韩语和印地语自然场景下的OCR任务

104,320 natural scene OCR samples in Korean and Hindi. The data collection scenarios include product packaging, posters, tickets, prompts, menus, building signs, etc. The data features diverse scenarios, shooting angles and lighting conditions. The language distribution covers Korean, Hindi and a small amount of English. For annotation, the data is marked with line-level polygon bounding boxes (or quadrilateral bounding boxes, rectangular bounding boxes), along with line-level content transcription and text attributes (language type); it also supports column-level polygon bounding boxes (or quadrilateral bounding boxes, rectangular bounding boxes) annotation, column-level content transcription and text attributes (language type). This set of Korean and Hindi natural scene OCR data can be applied to OCR tasks in natural scenes for Korean and Hindi.
提供机构:
shujutang
创建时间:
2024-05-31
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含104,320张韩语和印地语自然场景OCR图像,覆盖商品包装、海报等多种场景,并具有多样化的拍摄角度和光照条件。数据标注包括行级和列级的框标注、内容转写及语言属性,标注精度不低于95%,但仅面向企业合作购买。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务