TextOCR
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/TextOCR
下载链接
链接失效反馈官方服务:
资源简介:
TextOCR 是一个数据集,用于在任意形状的场景文本上对文本识别进行基准测试。 TextOCR 要求模型对自然图像上存在的任意形状的场景文本执行文本识别。 TextOCR 在 TextVQA 图像上提供约 100 万个高质量的单词注释,允许将端到端推理应用于下游任务,例如视觉问答或图像字幕。数据集统计:来自 TextVQA 的 28,134 张自然图像 903,069 个带注释的场景文本字 每张图像平均 32 个字
TextOCR is a dataset for benchmarking text recognition on arbitrarily shaped scene text.
It requires models to perform text recognition on arbitrarily shaped scene text present in natural images.
TextOCR provides approximately 1 million high-quality word annotations on TextVQA images, enabling end-to-end reasoning to be applied to downstream tasks such as visual question answering or image captioning.
Dataset Statistics:
28,134 natural images from TextVQA
903,069 annotated scene text words
An average of 32 words per image
提供机构:
OpenDataLab
创建时间:
2022-05-24
搜集汇总
数据集介绍

背景与挑战
背景概述
TextOCR是一个用于任意形状场景文本识别基准测试的数据集,包含约100万个高质量单词注释,基于28,134张自然图像,平均每张图像有32个字。该数据集支持端到端推理,可应用于视觉问答和图像字幕等下游任务,由Facebook AI Research于2021年发布。
以上内容由遇见数据集搜集并总结生成



