V-STaR

github2025-04-03 更新2025-04-07 收录

下载链接：

https://github.com/V-STaR-Bench/V-STaR

下载链接

链接失效反馈

官方服务：

资源简介：

V-STaR是一个视频时空推理基准测试数据集，旨在评估视频大型语言模型（Video-LLMs）在时空推理方面的能力。该数据集通过半自动化的GPT-4驱动流程生成从粗到细的链式思考问题，嵌入明确的推理链以模拟人类认知。

V-STaR is a benchmark dataset for video spatio-temporal reasoning, designed to evaluate the spatio-temporal reasoning capabilities of Video Large Language Models (Video-LLMs). This dataset generates coarse-to-fine chain-of-thought questions via a semi-automated GPT-4-driven pipeline, embedding explicit reasoning chains to simulate human cognition.

创建时间：

2025-03-11

原始信息汇总

V-STaR数据集概述

基本信息

名称：V-STaR (Video Spatio-Temporal Reasoning Benchmark)
类型：视频-大型语言模型(Video-LLMs)评估基准
主要目标：评估视频-LLMs在视频时空推理能力上的表现
发布年份：2025
相关论文：V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

数据集特点

核心任务：逆向时空推理(RSTR)任务
评估维度：
- What：对象识别准确性
- When：事件发生时间定位
- Where：空间位置关系理解
数据生成：采用半自动GPT-4驱动流程生成粗到细的思维链(CoT)问题
评估指标：
- 算术平均数(AM)
- 修正对数几何平均数(LGM)

评估结果

评估模型：14种Video-LLMs
可视化结果：包含6种最新顶级Video-LLMs在9个V-STaR领域的评估结果
评估标准：
- What问题：使用Qwen2.5-72B-Instruct评分(0-4分)
- When问题：采用时间定位指标(R@n, tIoU=m)
- Where问题：使用平均精度分数(AP@vIoU=m)和视觉交并比(m_vIoU)

使用方式

数据集下载： bash git lfs install git clone https://huggingface.co/datasets/V-STaR-Bench/V-STaR
评估脚本：
- 推理演示：python inference_demo.py
- 结果评估：python eval.py (需2块NVIDIA A100 80G GPU)

联系方式

联系人邮箱：
- jian.hu@qmul.ac.uk
- zixu.cheng@qmul.ac.uk

引用格式

bibtex @misc{cheng2025vstarbenchmarkingvideollmsvideo, title={V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning}, author={Zixu Cheng and Jian Hu and Ziquan Liu and Chenyang Si and Wei Li and Shaogang Gong}, year={2025}, eprint={2503.11495}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.11495}, }

搜集汇总

数据集介绍

构建方式

在视频时空推理领域，V-STaR数据集的构建采用了创新的半自动化流程。研究团队基于GPT-4的强大生成能力，设计了一个分层次的思维链问题生成框架，通过从粗粒度到细粒度的渐进式提问，系统性地捕捉视频中的时空关系。该流程首先识别关键帧（'when'），然后分析对象间的空间关系（'where'），最终推导事件本质（'what'），完整模拟了人类认知视频内容的推理逻辑。为确保数据质量，团队在自动化生成的基础上进行了严格的人工校验。

特点

V-STaR数据集最显著的特点是其实验设计的系统性。该基准测试创造性地提出了反向时空推理任务（RSTR），将视频理解分解为对象识别、时间定位和空间定位三个维度，并通过思维链问题捕捉底层推理过程。数据集包含9个不同领域的视频内容，采用算术平均数（AM）和对数几何平均数（LGM）双重指标评估模型性能，既能反映平均表现又能衡量整体推理能力。特别值得注意的是，该数据集通过精心设计的评估标准有效区分了模型真实的推理能力与预训练记忆的依赖。

使用方法

使用V-STaR数据集进行模型评估需要遵循标准化的流程。研究人员可通过HuggingFace平台获取完整数据集，利用提供的inference_demo.py脚本测试视频大语言模型。评估过程涉及三个关键指标：使用Qwen2.5-72B-Instruct对开放式问题进行0-4级评分，采用tIoU指标衡量时间定位精度，通过vIoU评估空间定位能力。最终结果需提交至官方Leaderboard进行验证，该平台持续更新包含GPT-4o、Gemini-2-flash等前沿模型的性能排名。值得注意的是，完整评估需要至少2块NVIDIA A100 80G GPU的计算资源支持。

背景与挑战

背景概述

V-STaR数据集由Zixu Cheng、Jian Hu等研究人员于2025年提出，旨在评估视频大语言模型（Video-LLMs）在视频时空推理任务中的表现。该数据集的核心研究问题是探究Video-LLMs是否能够像人类一样通过时空逻辑进行推理，即识别关键帧（“when”）、分析空间关系（“where”）并最终推断事件内容（“what”）。V-STaR通过引入逆向时空推理任务（RSTR）和粗到细的思维链问题，填补了现有视频理解评测在关系推理方面的空白，为视频理解领域的研究提供了重要的基准工具。

当前挑战

V-STaR数据集面临的挑战主要包括两方面：在领域问题层面，现有Video-LLMs往往依赖预训练中的共现偏差而非真正的时空推理能力，难以准确捕捉视频中的对象交互和事件逻辑；在构建过程层面，数据集需要通过半自动化的GPT-4流程生成具有显式推理链的问题，同时确保时空标注（如时间定位的m_tIoU和空间定位的m_vIoU）的精确性，这对标注质量和算法设计提出了较高要求。此外，评估过程中还需平衡不同指标（如算术均值AM和对数几何均值LGM）的权重，以全面衡量模型的时空推理能力。

常用场景

经典使用场景

在视频理解领域，V-STaR数据集被广泛用于评估视频大语言模型（Video-LLMs）的时空推理能力。通过分解视频理解任务为逆向时空推理（RSTR）任务，该数据集能够同时评估模型在对象识别、事件时间定位和空间关系分析方面的表现。这一经典使用场景为研究者提供了一个标准化的测试平台，帮助验证模型是否能够像人类一样进行多层次的视频内容理解。

衍生相关工作

V-STaR数据集催生了一系列关于视频大语言模型评估的重要研究。基于该数据集，研究者们开发了多种改进的评估指标，如算术平均数（AM）和对数几何平均数（LGM）。同时，该数据集也被整合到Awesome-MLLM-Reasoning-Collection资源库中，成为多模态大语言模型推理研究的重要组成部分，推动了该领域的标准化发展。

数据集最近研究