104,320张韩语和印地语自然场景OCR数据【数据堂】

Name: 104,320张韩语和印地语自然场景OCR数据【数据堂】
Creator: shujutang
Published: 2024-05-31 09:19:04
License: 暂无描述

OpenDataLab2024-05-31 更新2024-06-01 收录

下载链接：

https://opendatalab.org.cn/shujutang/shujutang1254

下载链接

链接失效反馈

官方服务：

资源简介：

104,320张韩语和印地语自然场景OCR数据采集场景包括商品包装、海报、车票、提示语、菜单、建筑物标志等。数据多样性包括多种场景、多种拍摄角度、多种光照条件。语言分布为韩语、印地语和英文（少量）。在标注方面，对数据进行行级多边形框 (或四边形框、矩形框)标注、行级内容转写、文本属性（语言种类）；列级多边形框 (或四边形框、矩形框)标注、列级内容转写、文本属性（语言种类）。本套韩语和印地语自然场景OCR数据可用韩语和印地语自然场景下的OCR任务

104,320 natural scene OCR samples in Korean and Hindi. The data collection scenarios include product packaging, posters, tickets, prompts, menus, building signs, etc. The data features diverse scenarios, shooting angles and lighting conditions. The language distribution covers Korean, Hindi and a small amount of English. For annotation, the data is marked with line-level polygon bounding boxes (or quadrilateral bounding boxes, rectangular bounding boxes), along with line-level content transcription and text attributes (language type); it also supports column-level polygon bounding boxes (or quadrilateral bounding boxes, rectangular bounding boxes) annotation, column-level content transcription and text attributes (language type). This set of Korean and Hindi natural scene OCR data can be applied to OCR tasks in natural scenes for Korean and Hindi.

提供机构：

shujutang

创建时间：

2024-05-31

搜集汇总

数据集介绍