数据堂—104,320张韩语和印地语自然场景OCR数据

Name: 数据堂—104,320张韩语和印地语自然场景OCR数据
Creator: maas
Published: 2025-12-05 16:15:05
License: 暂无描述

魔搭社区2025-12-05 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/DatatangBeijing/104320Images-KoreanandHindiOCRDatainNaturalScenes

下载链接

链接失效反馈

官方服务：

资源简介：

104,320张韩语和印地语自然场景OCR数据采集场景包括商品包装、海报、车票、提示语、菜单、建筑物标志等。数据多样性包括多种场景、多种拍摄角度、多种光照条件。语言分布为韩语、印地语和英文（少量）。在标注方面，对数据进行行级多边形框 (或四边形框、矩形框)标注、行级内容转写、文本属性（语言种类）；列级多边形框 (或四边形框、矩形框)标注、列级内容转写、文本属性（语言种类）。本套韩语和印地语自然场景OCR数据可用韩语和印地语自然场景下的OCR任务

A total of 104,320 natural scene OCR datasets for Korean and Hindi. The data collection scenarios include product packaging, posters, tickets, prompts, menus, building signs, etc. The data exhibits diversity across scenarios, shooting angles, and lighting conditions. The language distribution covers Korean, Hindi, and a small amount of English. For annotation, the data is annotated with line-level polygon boxes (or quadrilateral boxes, rectangular boxes), paired with line-level content transcription and text attributes (language type); it also supports column-level polygon boxes (or quadrilateral boxes, rectangular boxes) annotation, column-level content transcription and text attributes (language type). This Korean and Hindi natural scene OCR dataset can be applied to OCR tasks in Korean and Hindi natural scenes.

提供机构：

maas

创建时间：

2024-05-09

搜集汇总

数据集介绍