104,320张韩语和印地语自然场景OCR数据

数据堂2024-05-23 收录

下载链接：

https://www.datatang.com/dataset/1254

下载链接

链接失效反馈

官方服务：

资源简介：

104,320张韩语和印地语自然场景OCR数据采集场景包括商品包装、海报、车票、提示语、菜单、建筑物标志等。数据多样性包括多种场景、多种拍摄角度、多种光照条件。语言分布为韩语、印地语和英文（少量）。在标注方面，对数据进行行级多边形框 (或四边形框、矩形框)标注、行级内容转写、文本属性（语言种类）；列级多边形框 (或四边形框、矩形框)标注、列级内容转写、文本属性（语言种类）。本套韩语和印地语自然场景OCR数据可用韩语和印地语自然场景下的OCR任务。

This Korean and Hindi natural scene OCR dataset contains 104,320 samples. The data collection scenarios include commodity packaging, posters, tickets, prompts, menus, building signs, and other natural scenes. The dataset features diversity across multiple dimensions, including varied shooting scenarios, angles, and lighting conditions. The language distribution covers Korean, Hindi, and a small amount of English. For annotation, the dataset provides line-level polygonal (or quadrilateral, rectangular) bounding box annotation, line-level content transcription, and text attribute (language category) annotation; it also supports column-level polygonal (or quadrilateral, rectangular) bounding box annotation, column-level content transcription, and text attribute (language category) annotation. This dataset is applicable to OCR tasks in Korean and Hindi natural scene contexts.

提供机构：

数据堂

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集包含104,320张韩语和印地语自然场景OCR数据，涵盖商品包装、海报等多种场景，标注内容包括行级和列级的多边形框标注及内容转写，准确率不低于95%。数据可用于韩语和印地语自然场景下的OCR任务。

以上内容由遇见数据集搜集并总结生成