Video Thinking Test (Video-TT)

Name: Video Thinking Test (Video-TT)
Creator: 南洋理工大学S-Lab, 独立研究者
Published: 2025-07-21 00:30:33
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://zhangyuanhan-ai.github.io/video-tt/

下载链接

链接失效反馈

官方服务：

资源简介：

Video Thinking Test (Video-TT) 是一个用于评估视频LLMs在理解视频方面的正确性和鲁棒性的基准数据集。它由1000个YouTube Shorts视频组成，每个视频都有一个开放式问题和四个相关的对抗性问题，这些问题基于八个视觉或叙事复杂性因素。该数据集旨在确保任何模型响应中的错误都是由于模型缺乏理解，而不是因为选择关键帧的错误。

提供机构：

南洋理工大学S-Lab, 独立研究者

创建时间：

2025-07-21

原始信息汇总

Video Thinking Test (Video-TT) 数据集概述

基本信息

数据集名称: Video Thinking Test (Video-TT)
发布会议: ICCV 2025
作者: Yuanhan Zhang*, Yunice Chew*, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu (*Equal contribution)
数据集地址: https://zhangyuanhan-ai.github.io/video-tt/

数据集简介

Video-TT 是一个用于评估视频大语言模型（video LLMs）是否能够像人类一样有效理解真实世界视频的基准测试。其主要特点包括：

区分因帧采样不足导致的错误与真实理解复杂视觉叙事能力的不足。
评估模型对自然对抗性问题的鲁棒性。

数据集构成

视频数量: 1,000 个 YouTube Shorts 视频
问题类型: 每个视频包含 1 个开放式问题和 4 个对抗性问题
问题总数: 5,000 个问答对
问题分类: 18 种不同类型，基于推理层级（元素、事件、情节）和查询类型（属性、定位等）

数据标注流程

确保复杂性:
- 视觉复杂性: 包括不清晰或异常内容、快速运动、复杂物体排列、视觉错觉等。
- 叙事复杂性: 包括情节转折、蒙太奇式剪辑、微妙的技术操作、依赖世界知识等。
主要问题标注: 标注者创建需要视觉或叙事复杂性的问答对，仅保留至少一个顶级模型无法正确回答的问题。
答案与理由: 提供正确答案、详细推理过程和对错误模型响应的批评。
采样检查: 问题必须可从 80 个均匀采样的帧中回答。
对抗性问题扩展: 基于模型失败创建每个主要问题的四个挑战性变体。
一致性检查: 三位标注者共识确保一致性，未达成一致的问题被丢弃。

性能评估

开源模型表现:
- InternVL-2.5-8B: 在直接问题上表现良好（65.7% Correctly-Led），但在误导性提示上表现不佳（24.5% Wrongly-Led）。
- LLaVA-Video-72B: 最强的开源模型，接近 GPT-4o 的多选准确率。
专有模型表现:
- GPT-4o: 在误导性提示上表现最鲁棒（67.5% Correctly-Led, 39.8% Wrongly-Led）。
- Gemini Pro: 优于大多数开源模型。
人类表现: 64.4% 准确率，显著高于所有模型。
对抗性鲁棒性: GPT-4o 最高（36.0%），但仍远低于人类；开源模型表现较差（如 InternVL-2.5-7B 为 10.9%）。

致谢

本研究由新加坡教育部支持（MOE-T2EP20221-0012, MOE-T2EP20223-0002），以及 RIE2020 Industry Alignment Fund – Industry Collaboration Projects (IAF-ICP) Funding Initiative 和行业合作伙伴的现金和实物贡献。

搜集汇总

数据集介绍

构建方式

Video Thinking Test (Video-TT) 数据集的构建过程经过精心设计，以确保其能够有效评估视频大语言模型（video LLMs）在复杂视觉叙事理解上的正确性和鲁棒性。该数据集包含1,000个来自YouTube Shorts的视频片段，每个视频配有一个开放式主问题和四个对抗性问题。构建过程中，标注者基于视觉复杂性和叙事复杂性标准筛选视频，确保问题涉及至少一种复杂因素，如视觉模糊、快速运动或非线性叙事。此外，对抗性问题通过语义改写、正确引导、错误引导和多选题形式生成，以模拟真实场景中的自然对抗条件。标注流程还包括采样检查（确保问题可通过80帧均匀采样回答）和一致性验证，最终形成包含5,000个问答对的高质量数据集。

特点

Video-TT的核心特点在于其双重评估维度：正确性和鲁棒性。正确性通过复杂视觉叙事问题衡量，要求模型准确解析视频内容；鲁棒性则通过自然对抗问题测试模型在误导性语境下的稳定性。数据集覆盖18种问题类型，涵盖元素属性、事件定位、情节推理等层次，并引入视觉复杂性（如动态模糊、空间错觉）和叙事复杂性（如非线性剪辑、世界知识依赖）的挑战。与现有基准相比，Video-TT的独特之处在于其问题设计排除了帧采样不足的干扰，直接暴露模型的理解缺陷。人类基线表现（正确性84.3%，鲁棒性64.3%）与最优模型（GPT-4o正确性36.6%，鲁棒性36.0%）的显著差距，凸显了当前视频LLMs的局限性。

使用方法

使用Video-TT时，研究者可通过两种主要任务评估模型性能：1）**正确性评估**：模型需回答开放式主问题，答案由评分模型（如Qwen2.5-72B）按0-5分制评判，≥3分视为正确；2）**鲁棒性评估**：在模型正确回答主问题的视频子集中，统计其对抗性问题的全正确率。实验设置需遵循零样本条件，默认输入80帧，禁用音频信息以聚焦视觉理解。此外，可通过链式思维（CoT）提示或添加音频转录分析模型推理能力。数据集的细分问题类别（如“元素计数-错觉”“情节属性-技术剪辑”）支持针对性性能诊断，帮助识别模型在时空推理、世界知识整合等薄弱环节。

背景与挑战

背景概述

Video Thinking Test (Video-TT) 是由南洋理工大学S-Lab团队及独立研究员于2025年提出的视频理解基准测试，旨在评估视频大语言模型（Video LLMs）在复杂真实场景中的推理与理解能力。该数据集包含1,000个YouTube Shorts视频，每个视频配有一个开放式主问题和四个对抗性问题，聚焦视觉叙事复杂性和自然对抗条件下的鲁棒性。其核心研究问题是揭示现有模型在视频内容深层语义理解、时空关系推理及世界知识整合方面与人类水平的差距。作为首个将正确性（correctness）与鲁棒性（robustness）分离评估的基准，Video-TT推动了视频智能向人类认知水平的迈进。

当前挑战

Video-TT面临双重挑战：领域问题层面，需解决视频大语言模型对复杂视觉叙事（如幻觉内容、非线性剪辑）的误判问题，以及对抗性提问（如误导性措辞、多角度追问）下的性能退化问题；构建层面需平衡问题复杂度与可回答性，确保80帧均匀采样即可解答，避免因关键帧缺失导致的评估偏差。此外，标注过程中需严格对齐视觉复杂性（如运动速度、空间布局）与叙事复杂性（如世界观依赖、技术性剪辑）的量化标准，并通过三级人工校验保证对抗性问题的自然性与逻辑严密性。

常用场景

经典使用场景

Video Thinking Test (Video-TT) 数据集主要用于评估视频大语言模型（Video LLMs）在复杂视觉叙事理解和自然对抗性问题处理方面的能力。该数据集通过设计开放性问题、多重选择题以及对抗性问题，测试模型在视频内容理解上的正确性和鲁棒性。经典使用场景包括模型在视频问答任务中的表现评估，特别是在处理视觉复杂性和叙事复杂性时的表现。

衍生相关工作

Video-TT 数据集衍生了一系列相关研究工作，特别是在视频理解和多模态模型评估领域。例如，基于该数据集的研究探索了模型在视觉复杂性和叙事复杂性任务中的表现，提出了新的评估指标和方法。此外，该数据集还激发了对抗性视频问答和长视频理解等方向的研究，推动了视频智能技术的进一步发展。

数据集最近研究