five

TextOCR

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/TextOCR
下载链接
链接失效反馈
官方服务:
资源简介:
TextOCR 是一个数据集,用于在任意形状的场景文本上对文本识别进行基准测试。 TextOCR 要求模型对自然图像上存在的任意形状的场景文本执行文本识别。 TextOCR 在 TextVQA 图像上提供约 100 万个高质量的单词注释,允许将端到端推理应用于下游任务,例如视觉问答或图像字幕。数据集统计:来自 TextVQA 的 28,134 张自然图像 903,069 个带注释的场景文本字 每张图像平均 32 个字

TextOCR is a dataset for benchmarking text recognition on arbitrarily shaped scene text. It requires models to perform text recognition on arbitrarily shaped scene text present in natural images. TextOCR provides approximately 1 million high-quality word annotations on TextVQA images, enabling end-to-end reasoning to be applied to downstream tasks such as visual question answering or image captioning. Dataset Statistics: 28,134 natural images from TextVQA 903,069 annotated scene text words An average of 32 words per image
提供机构:
OpenDataLab
创建时间:
2022-05-24
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TextOCR是一个用于任意形状场景文本识别基准测试的数据集,包含约100万个高质量单词注释,基于28,134张自然图像,平均每张图像有32个字。该数据集支持端到端推理,可应用于视觉问答和图像字幕等下游任务,由Facebook AI Research于2021年发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作