ArTVideo

Name: ArTVideo
Creator: 武汉大学，新加坡南洋理工大学
Published: 2025-05-28 19:02:45
License: 暂无描述

arXiv2025-05-28 更新2025-05-30 收录

下载链接：

https://github.com/Hxyz-123/GoMatching

下载链接

链接失效反馈

官方服务：

资源简介：

ArTVideo是一个视频文本识别的新基准数据集，包含60个视频，超过30%的视频包含曲线文本，并具有详细的标注。该数据集旨在填补视频文本识别领域中曲线文本数据集的空白。数据集的创建是为了推动视频文本识别的研究，特别是针对曲线文本的识别。ArTVideo提供了丰富的视频文本实例，为研究者提供了宝贵的资源，以推动视频文本识别技术的发展。

ArTVideo is a novel benchmark dataset for video text recognition. It consists of 60 videos, over 30% of which contain curved text, and is equipped with detailed annotations. This dataset is designed to fill the gap of curved text datasets in the field of video text recognition. It was created to advance research in video text recognition, particularly for curved text recognition. ArTVideo provides abundant video text instances, serving as a valuable resource for researchers to promote the development of video text recognition technologies.

提供机构：

武汉大学，新加坡南洋理工大学

创建时间：

2025-05-28

原始信息汇总

GoMatching数据集概述

数据集简介

GoMatching是一个视频文本识别基准数据集，包含两个版本：
- GoMatching：通过长短时匹配的简单基线方法
- GoMatching++：参数和数据效率更高的任意形状视频文本识别方法
主要贡献：
- 提出将基于查询的图像文本识别器高效转化为视频专用识别器的方法
- 引入重评分机制和长短时匹配模块
- 建立ArTVideo测试集（包含60个视频片段，30%以上为弯曲文本）

包含数据集

主要数据集：
- ICDAR15-video
- DSText
- BOVText
- ArTVideo（新增，专注于弯曲文本）
数据组织形式：

|- datasets |- ICDAR15 |- DSText
|- BOVText |- ArTVideo

技术指标

训练效率：
- ICDAR15-video仅需3小时训练（Nvidia RTX 3090）
- 冻结现成ITS部分，专注跟踪

性能表现：

数据集	方法	MOTA	MOTP	IDF1	参数量(M)
ICDAR15-video	GoMatching	72.04	78.53	80.11	32.79
	GoMatching++	72.20	78.52	80.11	11.80
DSText	GoMatching	22.83	80.43	46.06	32.79
	GoMatching++	23.23	80.24	46.24	11.80
BOVText	GoMatching++	52.9	87.2	62.8	11.80
ArTVideo	GoMatching++	75.7	83.5	82.3	11.80

使用说明

数据准备：
- 视频需转换为帧格式
- 使用提供的Python脚本处理原始数据
训练命令示例： python

ICDAR15

python train_net.py --num-gpus 1 --config-file configs/GoMatching_ICDAR15.yaml
评估方法：
- 各数据集有专用评估脚本
- 支持在线提交和离线评估

预训练模型

提供DeepSolo预训练权重：
- GoogleDrive下载链接
- 支持其他模型权重转换

相关资源

论文：
- GoMatching: https://arxiv.org/abs/2401.07080
- GoMatching++: https://arxiv.org/abs/2505.22228
基准测试平台：
- ICDAR15-video: https://rrc.cvc.uab.es/?ch=3&com=evaluation&task=4
- DSText: https://rrc.cvc.uab.es/?ch=22&com=evaluation&task=2

搜集汇总

数据集介绍

构建方式

ArTVideo数据集的构建过程体现了对视频文本多样化需求的深入考量。研究团队从ICDAR15-video、BOVText和YouTube等公开资源中精选了60个包含弯曲文本的视频片段，采用多边形标注策略对文本轮廓进行精确标记。每个文本实例均标注了跨帧ID、文本类别、转录内容、边界框位置以及14个关键点构成的多边形坐标，其中弯曲文本占比达34%。为确保标注质量，团队采用双人交叉验证机制，累计投入960人时完成全部标注工作。数据集特别设计了四边形（水平文本）和多边形（弯曲文本）双重标注格式，并首次在视频文本数据中引入实例级掩码标注，为模型提供更丰富的几何信息。

特点

该数据集的核心价值体现在三个维度：首先，34%的弯曲文本占比填补了现有视频文本数据在复杂形状文本上的空白，较之仅含水平文本的传统数据集具有显著优势。其次，创新的多边形标注体系配合实例掩码，支持更精细的文本几何建模，尤其适合端到端文本检测与识别任务。数据统计分析显示，平均每帧包含2-30个文本实例，文本长度集中在2-10字符，同时存在少量长文本实例（最长19字符），这种分布有效模拟了真实场景中文本密度的变化。此外，数据集覆盖驾驶监控、短视频、教育资料等多样化场景，标注内容以英文为主，高频词如'THE'、'OF'等占比突出，反映了自然场景文本的语言分布特征。

使用方法

该数据集支持视频文本检测、跟踪及端到端识别全流程评估，特别新增了弯曲文本专项评测任务。评测体系采用MOTA、MOTP和IDF1三项指标：MOTA综合衡量检测与跟踪精度，MOTP评估定位准确度，IDF1侧重轨迹关联质量。使用建议包括：1）对于弯曲文本研究，建议优先采用多边形标注和掩码信息；2）评估时应区分整体文本与弯曲文本子集，以全面衡量模型能力；3）可利用跨数据集验证（如ICDAR15-video预训练+ArTVideo微调）测试模型泛化性。数据已按4:1划分训练测试集，研究者可通过官方GitHub获取完整标注工具链和评估代码，实现从模型训练到指标计算的全流程支持。

背景与挑战

背景概述

ArTVideo数据集由武汉大学和南洋理工大学的研究团队于2025年创建，旨在解决视频文本识别领域中的弯曲文本检测难题。作为视频文本识别（VTS）领域的新基准，该数据集包含60个视频，其中超过30%的文本实例为弯曲形状，并提供了多边形标注和掩码标注。其创新性体现在填补了现有视频文本数据集（如ICDAR15-video和BOVText）缺乏弯曲文本样本的空白，推动了复杂场景下的文本识别研究。该数据集通过融合图像文本识别（ITS）的先进技术，显著提升了模型在视频场景下的识别性能，相关成果发表于计算机视觉顶会论文《GoMatching++: Parameter- and Data-Efficient Arbitrary-Shaped Video Text Spotting and Benchmarking》。

当前挑战

ArTVideo数据集面临双重挑战：在领域问题层面，视频文本识别需同时解决检测、识别和跨帧跟踪的协同优化问题，而弯曲文本的几何多样性加剧了识别难度；在构建层面，数据标注需平衡弯曲文本的几何精度与标注效率，多边形标注需人工精调14个关键点，导致单视频平均标注耗时16小时。此外，视频中动态模糊、小尺度文本（占样本23%）和跨语言文本（含中英文）对标注一致性提出了更高要求。

常用场景

经典使用场景

ArTVideo数据集在视频文本识别领域具有重要应用价值，尤其在处理复杂场景下的弯曲文本时表现出色。该数据集广泛应用于视频文本检测、跟踪和识别任务，特别是在需要处理弯曲文本的场景中。通过提供高质量的弯曲文本标注，ArTVideo为研究人员提供了一个可靠的基准，用于评估和优化视频文本识别算法的性能。

解决学术问题

ArTVideo数据集解决了视频文本识别领域中弯曲文本数据稀缺的问题。通过提供超过30%的弯曲文本实例，该数据集填补了现有数据集的空白，使得研究人员能够更全面地评估算法在复杂场景下的表现。此外，ArTVideo还提供了多边形和掩码标注，进一步提升了文本轮廓预测的准确性，为视频文本识别研究提供了新的数据支持。

衍生相关工作

ArTVideo数据集的推出催生了一系列相关研究，特别是在视频弯曲文本识别领域。例如，GoMatching++方法利用该数据集进行训练和评估，显著提升了视频文本识别的性能。此外，许多基于Transformer的模型也开始采用ArTVideo进行测试，以验证其在复杂文本场景下的表现。这些工作不仅推动了视频文本识别技术的发展，还为未来研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集