105,941张12种语言自然场景OCR数据
收藏国家数据集管理服务平台2026-04-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=2738f78a9a6f80f3870d608861564dfb
下载链接
链接失效反馈官方服务:
资源简介:
105,941张12种语言自然场景OCR数据涵盖12种语言,包括6种亚洲语、6种欧洲语,采集覆盖多种自然场景、多种拍摄角度。在标注方面,标注行级文本的四边形框,行级文本转写。本套数据可用于多国语言OCR任务。
This dataset contains 105,941 natural scene OCR images covering 12 languages, including 6 Asian languages and 6 European languages. The data was collected across diverse natural scenes and shooting angles. For annotation, quadrilateral bounding boxes for line-level text and line-level text transcriptions are provided. This dataset can be used for multilingual OCR tasks.
提供机构:
数据堂(北京)科技股份有限公司
创建时间:
2026-04-28
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含105,941张自然场景图像,涵盖12种语言(6种亚洲语和6种欧洲语),并提供了行级文本的四边形框标注及转写内容。其总规模为85.35GB,主要用于多语种OCR任务的模型训练与优化,使用时需授权且不可商用。
以上内容由遇见数据集搜集并总结生成



