VidText

github2025-05-31 更新2025-06-01 收录

下载链接：

https://github.com/shuyansy/VidText

下载链接

链接失效反馈

官方服务：

资源简介：

VidText是一个专为多模态大语言模型（MLLMs）在视频文本理解方面的系统评估而设计的综合基准。它涵盖了27个细粒度类别的多样化视频，包括多种语言和场景，并设计了8个任务，涵盖感知和推理维度。这些任务挑战MLLMs在不同粒度上利用视频中动态出现的文本线索——从整体视频级理解到实例级定位。

VidText is a comprehensive benchmark designed for the systematic evaluation of Multimodal Large Language Models (MLLMs) in video-text understanding. It encompasses diverse videos spanning 27 fine-grained categories across multiple languages and scenarios, and incorporates 8 tasks covering both perceptual and reasoning dimensions. These tasks challenge MLLMs to leverage dynamically emerging textual cues in videos at varying granularities, ranging from holistic video-level comprehension to instance-level localization.

创建时间：

2025-05-21

原始信息汇总

VidText数据集概述

数据集简介

VidText是一个专为多模态大语言模型（MLLMs）视频文本理解能力评估设计的综合基准测试集，涵盖27个细粒度类别的多样化视频内容，支持多语言和多场景评估。

关键特性

数据多样性：包含不同长度的视频，覆盖27个细粒度类别
多语言支持：涵盖多种语言和场景
任务设计：包含8个任务，覆盖感知和推理两个维度
评估粒度：从视频级整体理解到实例级定位

技术指标

模型表现：当前最佳模型平均准确率仅为45.3%
评估维度：
- 整体OCR识别
- 整体推理
- 局部OCR识别
- 局部推理
- 文本定位
- 时序因果推理
- 文本追踪
- 空间推理

数据获取

标注文件：https://github.com/Naxyang/VidText/tree/master/data
原始视频：https://huggingface.co/datasets/sy1998/VidText

使用许可

许可证类型：CC-BY-NC-SA-4.0
使用限制：仅限研究用途，禁止商业用途

引用信息

bibtex @article{VidText, title={VidText: Towards Comprehensive Evaluation for Video-Text Understanding}, author={Yang, Zhoufaran and Shu, Yan and Yang, Zhifei and Zhang, Yan and Li, Yu and Lu, Keyang and Zeng, Gangyan and Liu, Shaohui and Zhou, Yu and Sebe, Nicu}, journal={arXiv preprint arXiv:2505.22810}, year={2025} }

评估资源

评估详情请参考：https://github.com/shuyansy/VidText/data/evaluation

搜集汇总

数据集介绍

构建方式

在视频文本理解领域，VidText数据集的构建采用了系统化设计理念。研究团队从27个细粒度视频类型中精选多样化样本，涵盖多语言和多场景内容。通过降低原始视频分辨率、裁剪时长等技术处理，在尊重版权的前提下构建了符合研究伦理的数据素材。数据集标注采用层次化任务框架，设计了8项涵盖感知与推理维度的评测任务，包括整体OCR、局部文本定位等不同粒度挑战。

特点

作为视频文本理解领域的综合性评测基准，VidText展现出鲜明的多维特性。其核心价值体现在覆盖27种视频类型的多样性数据分布，以及横跨视频级、片段级和实例级的层次化评估体系。特别值得注意的是，该数据集通过多语言场景设计和动态文本呈现方式，有效模拟了真实世界视频文本的复杂性。基准测试显示，当前最先进模型的平均准确率仅为45.3%，凸显了该数据集在检验模型OCR整合与时序推理能力方面的严格性。

使用方法

研究者可通过HuggingFace平台获取经过预处理的视频数据及标注文件，所有使用需遵循CC-BY-NC-SA-4.0非商业研究许可。数据集提供标准化的评估协议，支持对多模态大语言模型进行端到端测试。典型应用场景包括加载视频样本后，依次执行文本检测、时空定位和跨模态推理等任务，最终通过预设指标体系量化模型性能。为保障研究可复现性，建议配合官方提供的评估脚本进行系统性测试。

背景与挑战

背景概述

VidText数据集由Zhoufaran Yang等研究人员于2025年提出，旨在系统评估多模态大语言模型在视频文本理解领域的综合能力。该数据集由27种精细分类的视频类型构成，涵盖多语言场景，包含8项精心设计的感知与推理任务，从视频级整体理解到实例级定位形成层次化评估体系。作为首个专注于动态视频文本理解的基准测试，VidText通过测试18个前沿模型（包括Gemini-1.5 Pro和GPT-4o等）揭示了现有技术在OCR整合、时序定位等方面的显著不足，最高平均准确率仅达45.3%，为视频文本多模态研究提供了关键性评估工具。

当前挑战

该数据集主要应对视频文本理解中三大核心挑战：多粒度时空文本的动态识别难题、跨模态语义对齐的复杂性，以及长视频序列的因果推理瓶颈。构建过程中面临双重困难：在数据层需平衡27类视频的版权合规性与表征多样性，通过降分辨率、片段裁剪等技术手段解决；在标注层则需设计兼顾实例级文本定位与视频级推理的层次化标注体系，其中动态文本追踪与多语言场景的时空标注耗费大量人工校验成本。当前模型在TextTracking任务表现最弱（最佳成绩40.3%），凸显时序文本关联仍是待突破难点。

常用场景

经典使用场景

在视频文本理解领域，VidText数据集被广泛应用于评估多模态大语言模型（MLLMs）的综合性能。该数据集覆盖了27种细粒度视频类型，包含多种语言和场景，通过8项精心设计的任务，从感知到推理多个维度挑战模型的文本理解能力。研究者利用该数据集对模型进行系统性评估，特别是在视频级理解、实例级定位等任务中表现尤为突出。

实际应用

在实际应用中，VidText数据集为视频内容分析、智能字幕生成、多语言视频检索等场景提供了强有力的支持。其丰富的视频类型和任务设计使得模型能够在真实世界的复杂环境中进行有效测试，例如在电影、纪录片等长视频中定位关键文本信息，或在多语言场景下实现精准的文本-视觉关联。

衍生相关工作

围绕VidText数据集，研究者们开展了一系列经典工作，包括改进多模态大语言模型的OCR能力、优化时序推理算法以及探索更高效的视觉-文本融合策略。例如，Gemini-1.5 Pro和VideoLLaMA-3等模型在该数据集上的性能对比研究，为后续模型优化提供了重要参考，推动了视频文本理解技术的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集