DSText V2
收藏arXiv2023-11-29 更新2024-06-21 收录
下载链接:
https://rrc.cvc.uab.es/?ch=22&com=downloads
下载链接
链接失效反馈官方服务:
资源简介:
DSText V2是由浙江大学创建的综合性视频文本检测数据集,专注于密集和小型文本的挑战。该数据集包含140个视频片段,总计62.1k视频帧和2.2m文本实例,来源于YouTube,覆盖7个开放场景。数据集的创建过程涉及从BOVText、RoadText-1k和YouTube收集视频,并由专业团队进行标注。DSText V2支持视频文本检测、跟踪和端到端视频文本识别三个任务,旨在解决视频文本识别中的密集和小型文本挑战,为计算机视觉社区提供新的研究视角和基准。
DSText V2 is a comprehensive video text detection dataset developed by Zhejiang University, focusing on the challenges of dense and small-scale text. This dataset contains 140 video clips, totaling 62.1k video frames and 2.2 million text instances, sourced from YouTube and covering 7 open scenarios. The dataset creation process involves collecting videos from BOVText, RoadText-1k and YouTube, followed by annotation by a professional team. DSText V2 supports three tasks, namely video text detection, tracking and end-to-end video text recognition, aiming to address the challenges of dense and small-scale text in video text recognition, and provide new research perspectives and benchmarks for the computer vision community.
提供机构:
浙江大学
创建时间:
2023-11-29
搜集汇总
数据集介绍

构建方式
在视频文本分析领域,现有数据集多聚焦于常规尺寸与密度的文本,对密集与小尺寸文本的极端挑战覆盖不足。DSText V2的构建旨在填补这一空白,其数据源自三个渠道:从大规模视频文本数据集BOVText中筛选出30个包含密集小文本的高质量视频;从驾驶场景数据集RoadText-1k中选取10个视频以丰富驾驶场景;另外从YouTube平台手动收集了100个涵盖游戏、街景等多种新场景的视频。最终整合成包含140个视频片段、62.1千帧图像与2.2百万文本实例的数据集。标注工作采用专业团队逐帧标注的方式,对来自BOVText的视频沿用其原有旋转边界框、跟踪ID、文本内容及类别标注;对新增视频则进行统一格式的精细标注,并经过多轮审核确保边界框与文本转录准确率超过95%,整个标注过程耗费约7200人时,确保了数据的高质量与一致性。
特点
DSText V2的核心特征体现在其对视频文本分析中极端挑战的集中呈现。其一,数据集包含了高比例的小尺寸文本,文本平均面积仅为1758像素,其中面积小于400像素的文本占比高达50%,这对检测与识别模型的鲁棒性构成了严峻考验。其二,文本分布极为密集,平均每帧包含42.4个文本实例,远超先前数据集的最高密度(ICDAR 2015视频数据集的5.55),且有58%的视频帧包含超过15个文本,高密度场景极易引发跟踪过程中的身份切换问题。其三,场景多样性显著,涵盖驾驶、活动、体育、游戏等7个开放场景,特别是新增的‘游戏’、‘体育’等场景,拓宽了算法的应用边界。这些特征共同使得DSText V2成为评估算法在复杂自然场景下处理密集、小文本能力的标杆。
使用方法
DSText V2主要支持视频文本检测、视频文本跟踪以及端到端视频文本定位三项核心任务,旨在全面评估算法性能。对于视频文本检测任务,可直接采用图像级检测评估指标(如ICDAR 2015标准)对每帧文本边界框进行评测。视频文本跟踪任务则要求模型在检测的同时,为同一文本跨帧分配一致的跟踪ID,评估采用MOTChallenge系列指标,包括多目标跟踪精度(MOTA)、多目标跟踪准确度(MOTP)和身份F1分数(IDF1)等。端到端视频文本定位任务最为综合,需同步完成检测、跟踪与识别,其评估在跟踪指标基础上,进一步要求文本内容被完全正确识别。数据集已划分为90个视频的训练集与50个视频的测试集,研究者可利用其训练特定模型,并通过官方提供的评估脚本来量化算法在上述挑战性场景下的表现。
背景与挑战
背景概述
随着计算机视觉领域对自然场景视频文本处理需求的日益增长,浙江大学与华中科技大学的研究团队于2023年共同推出了DSText V2数据集。该数据集聚焦于视频中密集与小尺寸文本的检测、跟踪与识别,旨在解决现有基准在极端文本场景下的不足。相较于早期数据集,DSText V2通过整合140段高质量视频与220万文本实例,覆盖驾驶、体育、游戏等七类开放场景,显著提升了文本密度与小型文本比例,为视频文本理解研究提供了更为复杂与真实的评估环境。
当前挑战
DSText V2所应对的核心领域挑战在于视频中密集与小尺寸文本的稳健处理,此类文本因运动模糊、形变与高密度分布,导致检测与跟踪模型易产生漏检与身份切换。在构建过程中,数据标注面临极高成本与精度要求,平均每帧需处理约42个文本实例,标注耗时约为常规数据集的四倍。此外,数据源自多场景异构视频,需统一标注规范并确保追踪标识的跨帧一致性,这对标注流程的质量控制提出了严峻考验。
常用场景
经典使用场景
在视频文本分析领域,DSText V2数据集主要应用于评估和推动密集与小尺寸文本的检测、跟踪及端到端识别算法。该数据集通过涵盖游戏、体育、驾驶、街景等七种开放场景,模拟了现实世界中文本密集且尺寸微小的复杂视频环境。其经典使用场景包括:在视频序列中同时执行文本检测、跨帧跟踪以及字符识别,为研究者提供了一个统一的基准平台,用以测试模型在极端条件下的鲁棒性和准确性。
实际应用
在实际应用层面,DSText V2数据集为多个现实场景中的视频文本分析技术提供了关键支持。在自动驾驶领域,该数据集可用于提升车载系统对路牌、交通指示等密集小文本的实时识别能力。在体育视频分析中,它有助于自动提取计分板、运动员号码等文本信息。此外,在视频内容检索、实时字幕生成、安防监控以及增强现实交互等场景中,基于该数据集训练的模型能够更准确地处理动态、模糊且文本密集的视频流,从而提升系统的实用性和可靠性。
衍生相关工作
围绕DSText V2数据集,已衍生出一系列重要的相关研究工作。以TransDETR为代表的端到端视频文本识别框架,利用该数据集验证了基于查询嵌入的长序列时序建模方法在密集小文本场景下的有效性。同时,ICDAR 2023视频文本阅读竞赛以此数据集为基础,设立了视频文本跟踪与识别赛道,推动了如YORO、TransVTSpotter等多种先进算法的性能比较与优化。这些工作不仅深化了对视频文本时空特性的理解,也为后续研究提供了可复现的基准模型和评估协议。
以上内容由遇见数据集搜集并总结生成



