five

14,980张8种语言PPT OCR数据

收藏
国家数据集管理服务平台2026-04-28 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=623fee36a200612ce7f057da485134e5
下载链接
链接失效反馈
官方服务:
资源简介:
14,980张8种语言PPT OCR数据涵盖8种语言、多种场景、不同拍摄角度、不同拍摄距离、不同光照条件。在标注方面,标注行级文本的四边形框,行级文本转写。本套多语言PPT OCR数据可用于多国语言OCR任务。

This multilingual PPT OCR dataset contains 14,980 samples across 8 languages, with diverse application scenarios, varying shooting angles, shooting distances and lighting conditions. For annotation, it provides quadrilateral bounding boxes for line-level text and corresponding line-level text transcriptions. This dataset can be utilized for multi-language OCR tasks.
提供机构:
数据堂(北京)科技股份有限公司
创建时间:
2026-04-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含14,980张涵盖8种语言的PPT文档图像,用于光学字符识别任务。数据已标注行级文本的四边形框及转写内容,适用于多语言OCR模型训练,主要服务于办公文档提取等场景。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务