five

105,941张12种语言自然场景OCR数据【数据堂】

收藏
OpenDataLab2024-05-28 更新2024-06-01 收录
下载链接:
https://opendatalab.org.cn/shujutang/shujutang1064
下载链接
链接失效反馈
官方服务:
资源简介:
105,941张12种语言自然场景OCR数据涵盖12种语言,包括6种亚洲语、6种欧洲语,采集覆盖多种自然场景、多种拍摄角度。在标注方面,标注行级文本的四边形框,行级文本转写。本套数据可用于多国语言OCR任务

This dataset contains 105,941 natural scene OCR samples spanning 12 languages, including 6 Asian languages and 6 European languages. The data was collected across diverse natural scenes and various shooting angles. For annotation, quadrilateral bounding boxes for line-level text are labeled, and line-level text transcription is conducted. This dataset can be used for multilingual OCR tasks.
提供机构:
shujutang
创建时间:
2024-05-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含105,941张自然场景图像,涵盖12种语言(包括6种亚洲语和6种欧洲语),采集自商店牌匾、站牌等多种场景,并采用行级四边形框标注和文本转写,精度不低于97%。数据格式为.jpg图像和.json标注,适用于多国语言OCR任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务