39,993张互联网图像OCR数据【数据堂】

Name: 39,993张互联网图像OCR数据【数据堂】
Creator: shujutang
Published: 2024-05-22 13:55:09
License: 暂无描述

OpenDataLab2024-05-22 更新2024-05-25 收录

下载链接：

https://opendatalab.org.cn/shujutang/shujutang171

下载链接

链接失效反馈

官方服务：

资源简介：

39,993张互联网图像OCR数据采集场景包括影视字幕、广告、手机截屏、漫画、表情包、海报、杂志封面等。语言分布为中文和英文（少量）。在标注方面，对互联网图像进行行级矩形框标注、行级内容转写（少量数据为列级矩形框标注、列级内容转写）。本套互联网图像OCR数据可用于多种互联网图像OCR任务

This dataset contains 39,993 internet images for OCR tasks, with collection scenarios covering film subtitles, advertisements, mobile phone screenshots, comics, memes, posters, magazine covers and other scenarios. The languages involved are Chinese and a small amount of English. For annotation, most of the internet images are labeled with line-level bounding boxes and corresponding line-level content transcriptions; a small subset of the data uses column-level bounding boxes and column-level content transcriptions instead. This set of internet image OCR data can be applied to various internet image OCR-related tasks.

提供机构：

shujutang

创建时间：

2024-05-22

搜集汇总

数据集介绍