five

yunusserhat/TextOCR-Dataset

收藏
Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yunusserhat/TextOCR-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TextOCR数据集是一个用于文本识别和文本检测的数据集,包含英文和中文文本。数据集分为训练集、验证集和测试集,分别包含714,770个单词注释和21,778张图像、107,802个单词注释和3,124张图像、以及3,232张图像。数据集的图像来源于OpenImages数据集,数据格式遵循COCO-Text v2的JSON格式,但将mask字段改为points以表示多边形注释。注释包括文本的2D坐标、水平边界框和文本内容。数据集与TextVQA/TextCaps共享相同的图像ID和训练/验证/测试集划分,但由于隐私原因,TextOCR删除了TextVQA中的274张图像。

TextOCR数据集是一个用于文本识别和文本检测的数据集,包含英文和中文文本。数据集分为训练集、验证集和测试集,分别包含714,770个单词注释和21,778张图像、107,802个单词注释和3,124张图像、以及3,232张图像。数据集的图像来源于OpenImages数据集,数据格式遵循COCO-Text v2的JSON格式,但将mask字段改为points以表示多边形注释。注释包括文本的2D坐标、水平边界框和文本内容。数据集与TextVQA/TextCaps共享相同的图像ID和训练/验证/测试集划分,但由于隐私原因,TextOCR删除了TextVQA中的274张图像。
提供机构:
yunusserhat
原始信息汇总

TextOCR Dataset

数据集版本

  • Version: 0.1

训练集

  • Word Annotations: 714,770 (272MB)
  • Images: 21,778 (6.6GB)

验证集

  • Word Annotations: 107,802 (39MB)
  • Images: 3,124

测试集

  • Metadata: 1MB
  • Images: 3,232 (926MB)

许可证

  • License: CC BY 4.0

图像来源

  • 训练和验证集图像来自OpenImages的训练集,测试集图像来自OpenImages的测试集。
  • 验证集图像包含在训练集图像的zip文件中。

数据集格式

  • 主要遵循COCO-Text v2格式,但"anns"中的"mask"字段被命名为"points"。

详细格式

  • Points: 2D坐标列表,如[x1, y1, x2, y2, ...]。(x1, y1)始终是文本的左上角(在其自身方向上),点按顺时针顺序排列。
  • BBox: 从"points"转换的水平框,"area"基于"bbox"的宽度和高度计算。
  • Annotation: 对于不可读或非英文文本,多边形正常标注,但单词标注为单个"."符号。标注区分大小写,可包含标点符号。

标注细节

  • 尽可能绘制4个点(四边形),仅在必要时(如弯曲文本)绘制超过4个点。

与TextVQA/TextCaps的关系

  • TextOCR的图像ID与TextVQA的ID匹配。
  • 训练/验证/测试分割与TextVQA/TextCaps相同,但由于隐私原因,在创建TextOCR时移除了274张图像。
搜集汇总
数据集介绍
main_image_url
构建方式
TextOCR-Dataset以OpenImages数据集为基础,精心筛选并构建了适用于文本识别和检测的图像集合。该数据集包含了训练集、验证集和测试集,其中训练集和验证集图像来源于OpenImages的训练集,而测试集图像则来源于OpenImages的测试集。数据集的构建遵循了精确的标注规范,确保文本框的准确性,并对曲线路径的文本进行了特别处理。
特点
该数据集显著的特点在于其丰富的文本标注信息,包括714,770个单词注释的训练集和107,802个单词注释的验证集。所有图像均带有详细的文本框坐标和区域标注,适用于深度学习模型在场景文本识别任务中的训练和评估。此外,数据集遵循CC BY 4.0许可,保证了使用的合法性和开放性。
使用方法
使用TextOCR-Dataset时,用户可以依据提供的JSON格式文件,其中包含了图像信息和注释信息。数据集的格式与COCO-Text v2相似,但将'mask'字段更名为'points'以适应多边形标注。用户需注意图像可能存在旋转情况,并根据Rotation字段进行相应调整。通过解析JSON文件,用户可以获取图像和文本框的详细信息,进而用于模型训练或评估。
背景与挑战
背景概述
TextOCR-Dataset,由Yunus Serhat Yigit等人创建,旨在推动场景文本识别领域的研究。该数据集收集于2019年,以OpenImages数据集为基础,包含21,778张训练图像和3,124张验证图像,以及3,232张测试图像,提供714,770个单词注释。数据集遵循CC BY 4.0许可,适用于文本检索和文本分类任务,支持英文和中文两种语言,其格式大体遵循COCO-Text v2,并以点坐标形式标注文本框。TextOCR-Dataset与TextVQA/TextCaps数据集具有相同的图像ID和训练/验证/测试划分,但在创建过程中,由于隐私原因移除了274张图像。该数据集在学术界产生了广泛影响,为场景文本识别领域提供了宝贵的资源。
当前挑战
尽管TextOCR-Dataset为场景文本识别领域提供了丰富的数据资源,但研究者在应用该数据集时仍面临诸多挑战。首先,数据集中的曲线文本标注增加了识别的复杂性。其次,数据集在构建过程中,由于图像来源的多样性,图像质量参差不齐,给数据预处理带来了挑战。此外,数据集中包含的非法字符或不清晰文本的标注,对模型的鲁棒性提出了更高的要求。最后,尽管数据集提供了英文和中文两种语言的支持,但其他语种的覆盖仍然有限,限制了其在多语种场景文本识别中的应用。
常用场景
经典使用场景
在文本识别与检测的研究领域,yunusserhat/TextOCR-Dataset数据集以其丰富的标注和多样化的场景文本图像,成为评估算法性能的重要基准。该数据集常被用于训练和测试文本检测与识别模型,以准确捕捉图片中的文字信息,尤其是针对场景文本的定位与识别。
实际应用
在实际应用中,TextOCR-Dataset数据集的应用场景广泛,如自动驾驶系统中的交通标志识别、移动设备上的图像文字提取、印刷品数字化等,均依赖于该数据集所训练出的高精度识别模型。
衍生相关工作
基于该数据集,学术界衍生出了众多经典工作,包括但不限于改进的文本检测算法、端到端的文本识别系统、以及针对特定场景如曲线文本的识别技术,这些工作进一步拓宽了文本识别领域的研究视野和应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作