five

V-STaR

收藏
github2025-04-03 更新2025-04-07 收录
下载链接:
https://github.com/V-STaR-Bench/V-STaR
下载链接
链接失效反馈
官方服务:
资源简介:
V-STaR是一个视频时空推理基准测试数据集,旨在评估视频大型语言模型(Video-LLMs)在时空推理方面的能力。该数据集通过半自动化的GPT-4驱动流程生成从粗到细的链式思考问题,嵌入明确的推理链以模拟人类认知。

V-STaR is a benchmark dataset for video spatio-temporal reasoning, designed to evaluate the spatio-temporal reasoning capabilities of Video Large Language Models (Video-LLMs). This dataset generates coarse-to-fine chain-of-thought questions via a semi-automated GPT-4-driven pipeline, embedding explicit reasoning chains to simulate human cognition.
创建时间:
2025-03-11
原始信息汇总

V-STaR数据集概述

基本信息

数据集特点

  • 核心任务:逆向时空推理(RSTR)任务
  • 评估维度
    • What:对象识别准确性
    • When:事件发生时间定位
    • Where:空间位置关系理解
  • 数据生成:采用半自动GPT-4驱动流程生成粗到细的思维链(CoT)问题
  • 评估指标
    • 算术平均数(AM)
    • 修正对数几何平均数(LGM)

评估结果

  • 评估模型:14种Video-LLMs
  • 可视化结果:包含6种最新顶级Video-LLMs在9个V-STaR领域的评估结果
  • 评估标准
    • What问题:使用Qwen2.5-72B-Instruct评分(0-4分)
    • When问题:采用时间定位指标(R@n, tIoU=m)
    • Where问题:使用平均精度分数(AP@vIoU=m)和视觉交并比(m_vIoU)

使用方式

  • 数据集下载: bash git lfs install git clone https://huggingface.co/datasets/V-STaR-Bench/V-STaR

  • 评估脚本

    • 推理演示:python inference_demo.py
    • 结果评估:python eval.py (需2块NVIDIA A100 80G GPU)

相关资源

  • 项目主页:https://v-star-bench.github.io/
  • HuggingFace数据集:https://huggingface.co/datasets/V-STaR-Bench/V-STaR
  • 排行榜:https://huggingface.co/spaces/V-STaR-Bench/V-STaR-LeaderBoard
  • MLLM推理资源集:https://github.com/lwpyh/Awesome-MLLM-Reasoning-Collection

联系方式

  • 联系人邮箱:
    • jian.hu@qmul.ac.uk
    • zixu.cheng@qmul.ac.uk

引用格式

bibtex @misc{cheng2025vstarbenchmarkingvideollmsvideo, title={V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning}, author={Zixu Cheng and Jian Hu and Ziquan Liu and Chenyang Si and Wei Li and Shaogang Gong}, year={2025}, eprint={2503.11495}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.11495}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在视频时空推理领域,V-STaR数据集的构建采用了创新的半自动化流程。研究团队基于GPT-4的强大生成能力,设计了一个分层次的思维链问题生成框架,通过从粗粒度到细粒度的渐进式提问,系统性地捕捉视频中的时空关系。该流程首先识别关键帧('when'),然后分析对象间的空间关系('where'),最终推导事件本质('what'),完整模拟了人类认知视频内容的推理逻辑。为确保数据质量,团队在自动化生成的基础上进行了严格的人工校验。
特点
V-STaR数据集最显著的特点是其实验设计的系统性。该基准测试创造性地提出了反向时空推理任务(RSTR),将视频理解分解为对象识别、时间定位和空间定位三个维度,并通过思维链问题捕捉底层推理过程。数据集包含9个不同领域的视频内容,采用算术平均数(AM)和对数几何平均数(LGM)双重指标评估模型性能,既能反映平均表现又能衡量整体推理能力。特别值得注意的是,该数据集通过精心设计的评估标准有效区分了模型真实的推理能力与预训练记忆的依赖。
使用方法
使用V-STaR数据集进行模型评估需要遵循标准化的流程。研究人员可通过HuggingFace平台获取完整数据集,利用提供的inference_demo.py脚本测试视频大语言模型。评估过程涉及三个关键指标:使用Qwen2.5-72B-Instruct对开放式问题进行0-4级评分,采用tIoU指标衡量时间定位精度,通过vIoU评估空间定位能力。最终结果需提交至官方Leaderboard进行验证,该平台持续更新包含GPT-4o、Gemini-2-flash等前沿模型的性能排名。值得注意的是,完整评估需要至少2块NVIDIA A100 80G GPU的计算资源支持。
背景与挑战
背景概述
V-STaR数据集由Zixu Cheng、Jian Hu等研究人员于2025年提出,旨在评估视频大语言模型(Video-LLMs)在视频时空推理任务中的表现。该数据集的核心研究问题是探究Video-LLMs是否能够像人类一样通过时空逻辑进行推理,即识别关键帧(“when”)、分析空间关系(“where”)并最终推断事件内容(“what”)。V-STaR通过引入逆向时空推理任务(RSTR)和粗到细的思维链问题,填补了现有视频理解评测在关系推理方面的空白,为视频理解领域的研究提供了重要的基准工具。
当前挑战
V-STaR数据集面临的挑战主要包括两方面:在领域问题层面,现有Video-LLMs往往依赖预训练中的共现偏差而非真正的时空推理能力,难以准确捕捉视频中的对象交互和事件逻辑;在构建过程层面,数据集需要通过半自动化的GPT-4流程生成具有显式推理链的问题,同时确保时空标注(如时间定位的m_tIoU和空间定位的m_vIoU)的精确性,这对标注质量和算法设计提出了较高要求。此外,评估过程中还需平衡不同指标(如算术均值AM和对数几何均值LGM)的权重,以全面衡量模型的时空推理能力。
常用场景
经典使用场景
在视频理解领域,V-STaR数据集被广泛用于评估视频大语言模型(Video-LLMs)的时空推理能力。通过分解视频理解任务为逆向时空推理(RSTR)任务,该数据集能够同时评估模型在对象识别、事件时间定位和空间关系分析方面的表现。这一经典使用场景为研究者提供了一个标准化的测试平台,帮助验证模型是否能够像人类一样进行多层次的视频内容理解。
衍生相关工作
V-STaR数据集催生了一系列关于视频大语言模型评估的重要研究。基于该数据集,研究者们开发了多种改进的评估指标,如算术平均数(AM)和对数几何平均数(LGM)。同时,该数据集也被整合到Awesome-MLLM-Reasoning-Collection资源库中,成为多模态大语言模型推理研究的重要组成部分,推动了该领域的标准化发展。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLM)技术的迅猛发展,视频时空推理能力成为评估模型认知深度的关键指标。V-STaR数据集通过创新的逆向时空推理(RSTR)任务框架,将视频理解分解为'何时'、'何地'、'何事'三个维度,并引入链式思维(CoT)标注机制,为视频大语言模型(Video-LLMs)的细粒度推理能力评估树立了新标准。该数据集采用GPT-4辅助构建的半自动化标注流程,生成包含显式推理链的层次化问题,显著提升了评估的严谨性。当前研究热点集中于开发新型评估指标(如修正对数几何平均数mLGM)以量化模型时空推理的均衡性,同时探索如何将V-STaR的评估范式迁移至自动驾驶、智能监控等实际应用场景。最新发布的Awesome-MLLM-Reasoning-Collection资源库进一步整合了该领域的前沿成果,推动建立跨模型的统一评估体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作