yunusserhat/TextOCR-Dataset

Name: yunusserhat/TextOCR-Dataset
Creator: yunusserhat
Published: 2024-04-30 14:19:44
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/yunusserhat/TextOCR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TextOCR数据集是一个用于文本识别和文本检测的数据集，包含英文和中文文本。数据集分为训练集、验证集和测试集，分别包含714,770个单词注释和21,778张图像、107,802个单词注释和3,124张图像、以及3,232张图像。数据集的图像来源于OpenImages数据集，数据格式遵循COCO-Text v2的JSON格式，但将mask字段改为points以表示多边形注释。注释包括文本的2D坐标、水平边界框和文本内容。数据集与TextVQA/TextCaps共享相同的图像ID和训练/验证/测试集划分，但由于隐私原因，TextOCR删除了TextVQA中的274张图像。

提供机构：

yunusserhat

原始信息汇总

TextOCR Dataset

数据集版本

Version: 0.1

训练集

Word Annotations: 714,770 (272MB)
Images: 21,778 (6.6GB)

验证集

Word Annotations: 107,802 (39MB)
Images: 3,124

测试集

Metadata: 1MB
Images: 3,232 (926MB)

许可证

License: CC BY 4.0

图像来源

训练和验证集图像来自OpenImages的训练集，测试集图像来自OpenImages的测试集。
验证集图像包含在训练集图像的zip文件中。

数据集格式

主要遵循COCO-Text v2格式，但"anns"中的"mask"字段被命名为"points"。

详细格式

Points: 2D坐标列表，如[x1, y1, x2, y2, ...]。(x1, y1)始终是文本的左上角（在其自身方向上），点按顺时针顺序排列。
BBox: 从"points"转换的水平框，"area"基于"bbox"的宽度和高度计算。
Annotation: 对于不可读或非英文文本，多边形正常标注，但单词标注为单个"."符号。标注区分大小写，可包含标点符号。

标注细节

尽可能绘制4个点（四边形），仅在必要时（如弯曲文本）绘制超过4个点。

与TextVQA/TextCaps的关系

TextOCR的图像ID与TextVQA的ID匹配。
训练/验证/测试分割与TextVQA/TextCaps相同，但由于隐私原因，在创建TextOCR时移除了274张图像。

搜集汇总

数据集介绍

构建方式

TextOCR-Dataset以OpenImages数据集为基础，精心筛选并构建了适用于文本识别和检测的图像集合。该数据集包含了训练集、验证集和测试集，其中训练集和验证集图像来源于OpenImages的训练集，而测试集图像则来源于OpenImages的测试集。数据集的构建遵循了精确的标注规范，确保文本框的准确性，并对曲线路径的文本进行了特别处理。

特点

该数据集显著的特点在于其丰富的文本标注信息，包括714,770个单词注释的训练集和107,802个单词注释的验证集。所有图像均带有详细的文本框坐标和区域标注，适用于深度学习模型在场景文本识别任务中的训练和评估。此外，数据集遵循CC BY 4.0许可，保证了使用的合法性和开放性。

使用方法

使用TextOCR-Dataset时，用户可以依据提供的JSON格式文件，其中包含了图像信息和注释信息。数据集的格式与COCO-Text v2相似，但将'mask'字段更名为'points'以适应多边形标注。用户需注意图像可能存在旋转情况，并根据Rotation字段进行相应调整。通过解析JSON文件，用户可以获取图像和文本框的详细信息，进而用于模型训练或评估。

背景与挑战

背景概述

TextOCR-Dataset，由Yunus Serhat Yigit等人创建，旨在推动场景文本识别领域的研究。该数据集收集于2019年，以OpenImages数据集为基础，包含21,778张训练图像和3,124张验证图像，以及3,232张测试图像，提供714,770个单词注释。数据集遵循CC BY 4.0许可，适用于文本检索和文本分类任务，支持英文和中文两种语言，其格式大体遵循COCO-Text v2，并以点坐标形式标注文本框。TextOCR-Dataset与TextVQA/TextCaps数据集具有相同的图像ID和训练/验证/测试划分，但在创建过程中，由于隐私原因移除了274张图像。该数据集在学术界产生了广泛影响，为场景文本识别领域提供了宝贵的资源。

当前挑战

尽管TextOCR-Dataset为场景文本识别领域提供了丰富的数据资源，但研究者在应用该数据集时仍面临诸多挑战。首先，数据集中的曲线文本标注增加了识别的复杂性。其次，数据集在构建过程中，由于图像来源的多样性，图像质量参差不齐，给数据预处理带来了挑战。此外，数据集中包含的非法字符或不清晰文本的标注，对模型的鲁棒性提出了更高的要求。最后，尽管数据集提供了英文和中文两种语言的支持，但其他语种的覆盖仍然有限，限制了其在多语种场景文本识别中的应用。

常用场景

经典使用场景

在文本识别与检测的研究领域，yunusserhat/TextOCR-Dataset数据集以其丰富的标注和多样化的场景文本图像，成为评估算法性能的重要基准。该数据集常被用于训练和测试文本检测与识别模型，以准确捕捉图片中的文字信息，尤其是针对场景文本的定位与识别。

实际应用

在实际应用中，TextOCR-Dataset数据集的应用场景广泛，如自动驾驶系统中的交通标志识别、移动设备上的图像文字提取、印刷品数字化等，均依赖于该数据集所训练出的高精度识别模型。

衍生相关工作

基于该数据集，学术界衍生出了众多经典工作，包括但不限于改进的文本检测算法、端到端的文本识别系统、以及针对特定场景如曲线文本的识别技术，这些工作进一步拓宽了文本识别领域的研究视野和应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集