Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes

Name: Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes
Creator: Nexdata
Published: 2024-04-16 02:10:07
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含57,645张图像，主要用于垂直文本场景的OCR任务。数据集的收集场景包括街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面等。语言分布主要为中文，少数为英文。数据集中包含324,399个垂直边界框和204,154个非垂直边界框，边界框形状包括矩形、多边形和平行四边形。图像数据格式为.jpg，注释文件格式为.json。注释内容包括垂直和非垂直矩形边界框（多边形边界框、平行四边形边界框）的标注和文本转录。数据集的准确性较高，边界框的误差在3像素以内，标注和转录的准确性均不低于97%。

提供机构：

Nexdata

原始信息汇总

数据集描述

图像数量: 57,645张
场景类型: 包括街道场景、牌匾、广告牌、海报、装饰、艺术字体、杂志封面等
语言分布: 主要为中文，少量英文
标注内容:
- 垂直级别的矩形边界框（多边形边界框、平行四边形边界框）标注及文本转录
- 非垂直级别的矩形边界框（多边形边界框、平行四边形边界框）标注及文本转录
用途: 适用于多场景垂直文本OCR任务

数据规模

图像数量: 57,645张
边界框数量: 528,553个

收集环境

场景类型: 包括街道场景、牌匾、广告牌、海报、装饰、艺术字体、杂志封面等

数据多样性

场景多样性: 多场景
字体多样性: 多字体

语言分布

主要语言: 中文
次要语言: 少量英文

边界框方向分布

垂直边界框: 324,399个
非垂直边界框: 204,154个

边界框形状分布

矩形边界框: 34,936个
多边形边界框: 220,716个
平行四边形边界框: 272,901个

数据格式

图像格式: .jpg
标注文件格式: .json

标注精度

边界框顶点误差: 不超过3像素
边界框准确率: 不低于97%
文本转录准确率: 不低于97%

许可信息

商业许可

搜集汇总

数据集介绍

构建方式

该数据集源自真实场景中的垂直文本图像，涵盖街道场景、牌匾、广告牌、海报、装饰品、艺术字体及杂志封面等多类环境。图像以.jpg格式存储，标注文件采用.json格式，共包含57,645张图像与528,553个边界框。标注内容覆盖垂直与水平文本区域，具体包括矩形、多边形及平行四边形边界框的标注与转录，其中垂直边界框324,399个，非垂直边界框204,154个。标注精度要求每个边界框顶点误差不超过3像素，边界框与文本转录准确率均不低于97%。

特点

数据集显著特点在于其多样性与高精度。语言分布以中文为主，辅以少量英文，字体与场景的多元性增强了模型的泛化能力。边界框形状丰富，包含34,936个矩形、220,716个多边形及272,901个平行四边形，能够适应复杂文本布局。垂直与水平文本的全面覆盖使其特别适用于垂直文本场景的光学字符识别任务，如招牌识别与文档数字化。商业许可协议为实际应用提供了灵活性。

使用方法

该数据集可直接用于训练和评估垂直文本场景下的OCR模型。使用时，用户需加载.jpg图像与.json标注文件，解析边界框坐标与对应文本转录。数据集支持矩形、多边形及平行四边形边界框的灵活处理，适合构建端到端的文本检测与识别系统。建议将数据按比例划分为训练集、验证集与测试集，并配合数据增强技术以提升模型鲁棒性。完整数据集需通过商业渠道获取，示例部分已在HuggingFace上公开。

背景与挑战

背景概述

光学字符识别（OCR）技术作为计算机视觉与自然语言处理的交叉领域，长期致力于从图像中提取文本信息。然而，传统OCR研究多聚焦于水平排列的文本，对垂直文本场景的关注相对薄弱。Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes数据集由Nexdata团队于近年创建，旨在填补这一空白。该数据集包含57,645张图像，覆盖街景、标牌、广告牌、海报、装饰艺术字体及杂志封面等多种真实场景，语言以中文为主，辅以少量英文。其核心研究问题在于推动垂直文本场景下的OCR模型性能提升，通过提供精细的边界框标注（包括矩形、多边形和平行四边形）与转录文本，为多方向文本检测与识别任务提供了关键资源。该数据集对相关领域的影响力体现在：它不仅丰富了OCR数据集的多样性，还促使研究者关注垂直文本的独特几何与语义挑战，从而推动算法在复杂场景中的鲁棒性发展。

当前挑战

该数据集所解决的领域问题聚焦于垂直文本OCR的识别难题，核心挑战包括：一是文本方向多样性，垂直与非垂直边界框的共存要求模型具备方向感知能力，以准确区分并处理不同排列的文本；二是场景复杂性，如街景中的光照变化、遮挡及背景干扰增加了文本检测的难度；三是标注精度要求，每个边界框顶点误差需在3像素内，且转录准确率不低于97%，这对标注流程的标准化与质量控制提出了严苛标准。在构建过程中，挑战体现在数据收集的全面性上，需从多场景（如海报、装饰艺术）中捕获垂直文本样本，确保覆盖不同字体、大小和语种；同时，边界框形状的多样性（矩形、多边形、平行四边形）要求标注工具能灵活适配非水平文本的几何特性，而大规模数据（528,553个边界框）的一致性校验也构成了技术与资源的双重考验。

常用场景

经典使用场景

在计算机视觉与自然场景理解领域，垂直文本的检测与识别一直是极具挑战性的研究方向。该数据集由57,645张涵盖街景、广告牌、海报、装饰艺术字体、杂志封面等多类垂直文本场景的图像构成，提供了超过52万个精细标注的边界框，包含垂直与非垂直矩形、多边形及平行四边形框，并附有对应的文本转录信息。其经典使用场景聚焦于多方向、多字体、多语言的垂直文本光学字符识别（OCR）任务，尤其适用于训练和评估那些需要处理复杂背景、倾斜文字以及非标准排版的深度学习模型，为场景文本检测与识别算法的鲁棒性提升奠定了坚实的数据基础。

衍生相关工作

基于该数据集的高质量标注特性，衍生出一系列具有影响力的经典工作。研究者常将其作为基准数据集，开发针对垂直文本的专用检测网络，如引入旋转区域提议网络（RRPN）或可变形卷积来适应文本的倾斜与形变。在识别层面，催生了结合注意力机制与序列预测的垂直文本识别模型，以及利用空间变换网络对非水平文本进行矫正的前处理模块。此外，该数据集还促进了多任务学习框架的诞生，将文本检测、方向分类与识别整合于统一模型中，这些工作共同推动了场景文本理解领域的技术迭代与性能突破。

数据集最近研究