five

Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含57,645张图像,主要用于垂直文本场景的OCR任务。数据集的收集场景包括街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面等。语言分布主要为中文,少数为英文。数据集中包含324,399个垂直边界框和204,154个非垂直边界框,边界框形状包括矩形、多边形和平行四边形。图像数据格式为.jpg,注释文件格式为.json。注释内容包括垂直和非垂直矩形边界框(多边形边界框、平行四边形边界框)的标注和文本转录。数据集的准确性较高,边界框的误差在3像素以内,标注和转录的准确性均不低于97%。

该数据集包含57,645张图像,主要用于垂直文本场景的OCR任务。数据集的收集场景包括街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面等。语言分布主要为中文,少数为英文。数据集中包含324,399个垂直边界框和204,154个非垂直边界框,边界框形状包括矩形、多边形和平行四边形。图像数据格式为.jpg,注释文件格式为.json。注释内容包括垂直和非垂直矩形边界框(多边形边界框、平行四边形边界框)的标注和文本转录。数据集的准确性较高,边界框的误差在3像素以内,标注和转录的准确性均不低于97%。
提供机构:
Nexdata
原始信息汇总

数据集描述

  • 图像数量: 57,645张
  • 场景类型: 包括街道场景、牌匾、广告牌、海报、装饰、艺术字体、杂志封面等
  • 语言分布: 主要为中文,少量英文
  • 标注内容:
    • 垂直级别的矩形边界框(多边形边界框、平行四边形边界框)标注及文本转录
    • 非垂直级别的矩形边界框(多边形边界框、平行四边形边界框)标注及文本转录
  • 用途: 适用于多场景垂直文本OCR任务

数据规模

  • 图像数量: 57,645张
  • 边界框数量: 528,553个

收集环境

  • 场景类型: 包括街道场景、牌匾、广告牌、海报、装饰、艺术字体、杂志封面等

数据多样性

  • 场景多样性: 多场景
  • 字体多样性: 多字体

语言分布

  • 主要语言: 中文
  • 次要语言: 少量英文

边界框方向分布

  • 垂直边界框: 324,399个
  • 非垂直边界框: 204,154个

边界框形状分布

  • 矩形边界框: 34,936个
  • 多边形边界框: 220,716个
  • 平行四边形边界框: 272,901个

数据格式

  • 图像格式: .jpg
  • 标注文件格式: .json

标注精度

  • 边界框顶点误差: 不超过3像素
  • 边界框准确率: 不低于97%
  • 文本转录准确率: 不低于97%

许可信息

  • 商业许可
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自真实场景中的垂直文本图像,涵盖街道场景、牌匾、广告牌、海报、装饰品、艺术字体及杂志封面等多类环境。图像以.jpg格式存储,标注文件采用.json格式,共包含57,645张图像与528,553个边界框。标注内容覆盖垂直与水平文本区域,具体包括矩形、多边形及平行四边形边界框的标注与转录,其中垂直边界框324,399个,非垂直边界框204,154个。标注精度要求每个边界框顶点误差不超过3像素,边界框与文本转录准确率均不低于97%。
特点
数据集显著特点在于其多样性与高精度。语言分布以中文为主,辅以少量英文,字体与场景的多元性增强了模型的泛化能力。边界框形状丰富,包含34,936个矩形、220,716个多边形及272,901个平行四边形,能够适应复杂文本布局。垂直与水平文本的全面覆盖使其特别适用于垂直文本场景的光学字符识别任务,如招牌识别与文档数字化。商业许可协议为实际应用提供了灵活性。
使用方法
该数据集可直接用于训练和评估垂直文本场景下的OCR模型。使用时,用户需加载.jpg图像与.json标注文件,解析边界框坐标与对应文本转录。数据集支持矩形、多边形及平行四边形边界框的灵活处理,适合构建端到端的文本检测与识别系统。建议将数据按比例划分为训练集、验证集与测试集,并配合数据增强技术以提升模型鲁棒性。完整数据集需通过商业渠道获取,示例部分已在HuggingFace上公开。
背景与挑战
背景概述
光学字符识别(OCR)技术作为计算机视觉与自然语言处理的交叉领域,长期致力于从图像中提取文本信息。然而,传统OCR研究多聚焦于水平排列的文本,对垂直文本场景的关注相对薄弱。Nexdata/57645_Images_Vertical_OCR_Data_in_Text_Scenes数据集由Nexdata团队于近年创建,旨在填补这一空白。该数据集包含57,645张图像,覆盖街景、标牌、广告牌、海报、装饰艺术字体及杂志封面等多种真实场景,语言以中文为主,辅以少量英文。其核心研究问题在于推动垂直文本场景下的OCR模型性能提升,通过提供精细的边界框标注(包括矩形、多边形和平行四边形)与转录文本,为多方向文本检测与识别任务提供了关键资源。该数据集对相关领域的影响力体现在:它不仅丰富了OCR数据集的多样性,还促使研究者关注垂直文本的独特几何与语义挑战,从而推动算法在复杂场景中的鲁棒性发展。
当前挑战
该数据集所解决的领域问题聚焦于垂直文本OCR的识别难题,核心挑战包括:一是文本方向多样性,垂直与非垂直边界框的共存要求模型具备方向感知能力,以准确区分并处理不同排列的文本;二是场景复杂性,如街景中的光照变化、遮挡及背景干扰增加了文本检测的难度;三是标注精度要求,每个边界框顶点误差需在3像素内,且转录准确率不低于97%,这对标注流程的标准化与质量控制提出了严苛标准。在构建过程中,挑战体现在数据收集的全面性上,需从多场景(如海报、装饰艺术)中捕获垂直文本样本,确保覆盖不同字体、大小和语种;同时,边界框形状的多样性(矩形、多边形、平行四边形)要求标注工具能灵活适配非水平文本的几何特性,而大规模数据(528,553个边界框)的一致性校验也构成了技术与资源的双重考验。
常用场景
经典使用场景
在计算机视觉与自然场景理解领域,垂直文本的检测与识别一直是极具挑战性的研究方向。该数据集由57,645张涵盖街景、广告牌、海报、装饰艺术字体、杂志封面等多类垂直文本场景的图像构成,提供了超过52万个精细标注的边界框,包含垂直与非垂直矩形、多边形及平行四边形框,并附有对应的文本转录信息。其经典使用场景聚焦于多方向、多字体、多语言的垂直文本光学字符识别(OCR)任务,尤其适用于训练和评估那些需要处理复杂背景、倾斜文字以及非标准排版的深度学习模型,为场景文本检测与识别算法的鲁棒性提升奠定了坚实的数据基础。
衍生相关工作
基于该数据集的高质量标注特性,衍生出一系列具有影响力的经典工作。研究者常将其作为基准数据集,开发针对垂直文本的专用检测网络,如引入旋转区域提议网络(RRPN)或可变形卷积来适应文本的倾斜与形变。在识别层面,催生了结合注意力机制与序列预测的垂直文本识别模型,以及利用空间变换网络对非水平文本进行矫正的前处理模块。此外,该数据集还促进了多任务学习框架的诞生,将文本检测、方向分类与识别整合于统一模型中,这些工作共同推动了场景文本理解领域的技术迭代与性能突破。
数据集最近研究
最新研究方向
在自然场景文本识别领域,垂直文本的精准检测与转录一直是技术难点,尤其在多语言混杂、字体多样化的真实环境中。Nexdata推出的57645张垂直OCR图像数据集,聚焦于街景、广告牌、海报、装饰艺术字体等复杂场景,通过提供垂直与非垂直矩形边界框、多边形及平行四边形边界框的精细化标注,为多方向文本识别任务注入了新的活力。当前,该数据集的前沿研究方向集中在融合多形态边界框的端到端识别模型构建,以及针对垂直文本的语义理解与布局分析。随着智能安防、自动驾驶及多语种文档数字化等热点应用的推进,这一数据集不仅推动了OCR技术从水平文本向任意方向文本的泛化能力跃升,更为构建更鲁棒的视觉语言理解系统奠定了关键数据基础,具有显著的学术价值与产业应用意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作