数据堂—3,506张印地语OCR标注及转写数据
收藏魔搭社区2025-11-12 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/3506HindiOCRImagesData-ImageswithAnnotationandTranscription
下载链接
链接失效反馈官方服务:
资源简介:
3,506张印地语OCR标注及转写数据包括自然场景图片2,056张,互联网图像1,103张,文本图像347张。在标注方面,行级内容:行级四边形框标注、行级内容转写;竖列内容:竖列四边形框标注、竖列内容转写。 本套印地语OCR标注及转写数据可用于多场景下的印地语识别、印地语拍照翻译等任务
This Hindi OCR annotated and transcribed dataset consists of 3,506 images in total, which are divided into three categories: 2,056 natural scene images, 1,103 internet images, and 347 text images. In terms of annotation, for line-level content, it provides quadrilateral bounding box annotation and line-level content transcription; for vertical column-level content, it provides quadrilateral bounding box annotation and vertical column-level content transcription. This dataset can be applied to multi-scenario Hindi text recognition, Hindi photo translation and other related tasks.
提供机构:
maas
创建时间:
2024-05-07
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含3,506张印地语OCR标注及转写图像,涵盖自然场景、互联网来源和文本图像三类,提供行级和列级的四边形边界框与转写标注。它专为印地语识别和照片翻译等多场景测试任务设计,数据格式为.jpg图像和.json标注,标注精度不低于97%。
以上内容由遇见数据集搜集并总结生成



