VSTAT

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/VSTAT-NeurIPS2026/VSTAT

下载链接

链接失效反馈

官方服务：

资源简介：

VSTAT是一个基于视频的基准测试数据集，用于评估多模态大语言模型（MLLMs）的视觉状态跟踪能力。数据集包含813个视频片段和1,479个问题，这些问题需要从视频的多个关键帧或长片段中推断答案。数据集分为三部分：合成视频（450个视频，550个问题）、自录视频（80个视频，100个问题）和YouTube视频（283个视频，830个问题）。每个问题-答案对都有详细注释，包括问题类型、答案、选项、感知复杂性标签、状态元素类型和状态结构。数据集适用于视频问答和视觉状态跟踪任务，提供完整的下载和处理脚本。自录和合成视频采用CC BY 4.0许可，YouTube视频需用户自行下载。

VSTAT is a video-based benchmark dataset designed to evaluate the visual state tracking capabilities of multimodal large language models (MLLMs). The dataset consists of 813 video clips accompanied by 1,479 questions whose answers cannot be inferred from any single keyframe or short clip. The dataset is divided into three parts: synthetic videos (450 videos, 550 questions), self-recorded videos (80 videos, 100 questions), and YouTube videos (283 videos, 830 questions). Each question-answer pair includes detailed annotations such as question type (multiple-choice or numerical), answer, options (if applicable), perceptual complexity labels (e.g., motion blur, camera movement), state element types (counting, position, attribute), and state structure (atomic, sequence, set, dictionary). The dataset is suitable for video question answering and visual state tracking tasks and comes with complete download and processing scripts. The self-recorded and synthetic videos are licensed under CC BY 4.0, while the YouTube videos are not redistributed and require users to download them separately.

创建时间：

2026-05-04

原始信息汇总

VSTAT: 视觉状态追踪基准数据集

数据集概述

VSTAT 是一个基于视频的基准数据集，专门用于评估多模态大语言模型（MLLMs）的视觉状态追踪能力。数据集包含 813 个视频片段，配对了 1,479 个问题，这些问题无法通过任何单个关键帧或短视频片段来回答。

数据集组成

数据来源	视频数	问题数
合成视频 (synthetic)	450	550
自录视频 (self_recorded)	80	100
YouTube 视频	283	830
总计	813	1,479

文件结构

主要标注文件：vstat_qa_clean.json — 包含全部 1,479 个问题-答案对及分类标签
元数据文件：
- youtube_metadata.json — YouTube 视频的 URL 及起止时间戳
- youtube_resolutions.json — 每个 YouTube 视频片段的目标分辨率（宽、高、帧率）
- redactions.json — 隐私遮蔽区域的声明性定义
- croissant.json — Croissant 1.0 元数据
脚本文件：
- scripts/download_youtube.py — 下载并裁剪 283 个 YouTube 视频片段
- scripts/redact.sh — 应用隐私遮蔽处理
- scripts/build_resolution_map.py — 重建分辨率映射的工具
视频文件：
- videos/synthetic/<category>/<id>.mp4 — Blender 渲染的合成视频（托管提供）
- videos/self_recorded/<category>/<id>.mp4 — 作者自录视频（仅手部，无音频）
- videos/youtube/<category>/<id>.mp4 — 不直接提供，需通过脚本自行下载

数据格式

每个问题-答案对包含以下字段：

字段	说明
`video_id`	唯一标识符 (例如 `0001_pt1_q1`)
`video_path`	视频文件相对路径
`video_source`	视频来源 (`synthetic` / `self_recorded` / `youtube`)
`source_task`	粗粒度类别 (例如 `basketball`, `dice`, `shell_game`)
`question`	问题文本（多选题选项以 `(A)(B)...` 形式内联）
`answer_type`	答案类型 (`mcq` 或 `numeric`)
`answer`	答案（多选题为字母，数值题为整数）
`choices`	多选题选项列表（数值题为空）
`answer_index`	选项的 0-based 索引（数值题为 null）
`perceptual_complexity`	感知复杂度标签列表
`state_element_type`	状态元素类型 (`count` / `location` / `attribute`)
`state_structure`	状态结构 (`atomic` / `sequence` / `set` / `dictionary`)

分类体系

感知复杂度（多标签）

action_ambiguity — 动作歧义
camera_motion — 摄像机运动
homogeneity — 同质性
multi_entity_attribution — 多实体归属
occlusion — 遮挡
symbolic_decoding — 符号解码

状态元素类型（单标签）

count — 计数
location — 位置
attribute — 属性

状态结构（单标签）

atomic — 原子状态
sequence — 序列状态
set — 集合状态
dictionary — 字典状态

许可证

标注数据、自录视频和合成视频：CC BY 4.0
YouTube 视频：不进行再分发，受原始上传者许可协议约束

隐私与同意

自录视频仅包含作者手部，无面部、声音或其他可识别个人信息，音频已被移除
作者已同意公开其手部录像
YouTube 视频仅再分发 URL 和时间戳，原始上传者保留对其内容的控制权
隐私遮蔽脚本 (redact.sh) 根据 redactions.json 对少量视频中的记分牌/屏幕文字进行黑框处理

引用

bibtex @inproceedings{vstat2026, title={Benchmarking State Tracking in Multimodal Video Understanding}, author={Anonymous}, booktitle={NeurIPS 2026 Datasets and Benchmarks Track}, year={2026} }

搜集汇总

数据集介绍

构建方式

VSTAT数据集旨在评估多模态大语言模型在视频中的视觉状态跟踪能力，其构建过程融合了多种数据来源以确保内容的多样性与挑战性。数据集包含813个视频片段和1479个问答对，其中450个合成视频通过Blender渲染生成，覆盖六类需要跨帧推理的视觉任务；80个自录视频由作者拍摄的手部操作片段构成，背景简洁但干扰可控；283个YouTube视频则从真实场景中截取，需通过提供的下载脚本配合yt-dlp工具按指定分辨率与帧率精确裁剪，并经由隐私遮蔽脚本对特定区域进行黑框处理。所有问答对均经过精细标注，并配有分类学标签，确保答案无法从单一关键帧中直接推断，从而迫使模型依赖时序信息进行状态跟踪。

特点

VSTAT的核心特点在于其问题设计的复杂性，强调对时序信息的深度依赖，答案无法通过单帧或短片段推理得出。每个问题均被标注多重感知复杂度标签，如动作模糊、相机运动、同质性、多实体归属、遮挡及符号解码，并依据状态元素类型细分为计数、位置与属性三类，状态结构则涵盖原子、序列、集合与字典四种模式。数据集包含多项选择与数值型答案，其中数值型问题通过平均相对精度评估。此外，数据集对隐私保护极为严谨，自录视频仅包含手部且已去除音频，YouTube片段仅公开URL与时间戳，并在对应区域施加永久性黑框遮蔽。

使用方法

使用VSTAT数据集需先通过huggingface-cli或git-lfs获取仓库，随后运行下载脚本获取YouTube片段并应用隐私遮蔽。加载数据时，可直接读取vstat_qa_clean.json文件，其中每条记录包含视频ID、路径、来源、问题文本、答案类型与答案、以及感知复杂度与状态结构标签。评估时需区分多项选择与数值型问题：多项选择直接比对答案字母，数值型则需严格匹配整数。数据集已预设分辨率映射文件以确保重现官方发布版本，同时支持并行下载与局部测试等灵活性配置，便于研究者快速开展视觉状态跟踪能力的基准测试。

背景与挑战

背景概述

VSTAT（Visual State Tracking Benchmark）是一个面向多模态大语言模型视觉状态追踪能力的视频基准数据集，创建于2026年，由NeurIPS 2026 Datasets and Benchmarks Track的匿名研究团队提出。核心研究问题在于，当前多模态大语言模型在理解视频中持续变化的物体状态（如数量、位置、属性）方面存在显著局限，而传统的视频问答基准往往仅依赖单帧或短片段信息即可作答。VSTAT通过精心设计的813个视频片段和1479个问题，确保答案无法从任何单独关键帧或短片段推断，从而填补了这一评估空白。该数据集在合成、自录和YouTube三种来源基础上构建，覆盖多种视觉复杂度标签，对推动多模态模型向时间连贯性理解的发展具有重要影响力。

当前挑战

VSTAT所解决的领域问题挑战在于，现有视频问答基准缺乏对视觉状态连续追踪能力的严格测试，多模态模型往往通过空间线索而非时间推理来作答，导致对真实视频理解能力的评估失真。构建过程中面临的挑战包括：1) 设计问题需确保无法从单帧推断，这对视频素材的选择和问题编写要求极高；2) 统一三类视频来源（合成、自录、YouTube）的格式、分辨率和帧率，避免采样漂移；3) 处理YouTube视频的版权与隐私问题，需开发下载、裁剪、隐私遮蔽等脚本以确保重现性，同时不侵犯原上传者权益。这些技术和管理挑战使得VSTAT成为评估时间性视觉推理能力的可靠工具。

常用场景

经典使用场景

在现代多模态大语言模型（MLLMs）蓬勃发展的浪潮中，视觉状态追踪成为衡量模型时序理解能力的关键试金石。VSTAT数据集专为此而生，其经典使用场景聚焦于评估模型对视频中动态变化的连续追踪能力。具体而言，该数据集包含813个精心筛选的视频片段与1479道关联问题，涵盖合成、自录与YouTube三类来源，每个问题的答案无法从单一关键帧或短片段直接推断。研究者可通过多选或数值问答形式，系统检验模型在动作歧义、相机运动、遮挡等复杂条件下的状态理解水平，从而揭示MLLMs在视频级时序推理中的真实边界。

解决学术问题

VSTAT数据集精准回应了多模态领域长期存在的学术痛点——现有视频问答基准多依赖局部帧特征，难以判别模型是否真正具备跨帧的状态演化追踪能力，而非简单的模式记忆或帧间插值。该数据集通过引入精细的感知复杂度标签（如多实体归因、符号解码）与状态结构分类（原子态、序列态、集合态、字典态），构建了一个层次化评估框架。这一设计不仅量化了模型在计数、定位、属性推断等基础任务上的表现，更深入剖析了其处理复杂状态结构时的认知瓶颈，为未来模型架构的改进提供了明确的方向指引与可复现的评估基准。

衍生相关工作

自VSTAT发布以来，其独特的设计理念已催生了一系列启发性工作。首先，该数据集促使研究者重新审视视频理解基准的构建原则，推动了将状态追踪作为一种独立能力的系统评估范式，部分团队已开始借鉴其“多源视频+精细状态标注”的框架，构建面向机器人操作、自动驾驶等领域的专有状态追踪基准。其次，VSTAT中提出的感知复杂度标签体系，被后续工作用作分析模型失败案例的分类工具，有效指导了针对性的数据增强与训练策略。最后，其开源的下载与预处理脚本（如YouTube视频精准裁剪与隐私遮蔽）也成为社区构建可控实验环境的重要参考模板。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集