VLM4D

github2025-08-20 更新2025-08-22 收录

下载链接：

https://github.com/ShijieZhou-UCLA/VLM4D

下载链接

链接失效反馈

官方服务：

资源简介：

VLM4D数据集包含用于评估视觉语言模型时空感知能力的视频问答数据。每个条目包含唯一标识符、视频URL、问题类型（多项选择）、问题文本、4个选项和正确答案。数据集支持对模型在真实视频和合成视频上的表现进行评估

The VLM4D dataset comprises video question answering (VideoQA) data for evaluating the spatio-temporal perception capabilities of vision-language models. Each entry includes a unique identifier, video URL, question type (multiple-choice), question text, four options, and the correct answer. This dataset supports evaluating model performance on both real-world and synthetic videos.

创建时间：

2025-08-19

原始信息汇总

VLM4D数据集概述

数据集基本信息

名称：VLM4D
目的：提升视觉语言模型的时空感知能力
来源：公开研究视频数据集（DAVIS、YouTube-VOS、Ego4D）
访问地址：https://huggingface.co/datasets/shijiezhou/VLM4D

数据结构

每个数据条目包含以下字段：

id：每个评估问题的唯一标识符
video：视频的Hugging Face URL
question_type：使用客观题型"multiple-choice"
question：问题描述
choices：4个多项选择题选项
answer：问题的真实答案

数据类型

real_mc：真实视频数据上的多项选择答案
synthetic_mc：合成视频数据上的多项选择答案

评估方法

推理方式：
- cot：思维链推理
- direct-output：无中间推理步骤的直接答案
评估流程：
1. 响应生成
2. 使用LLM作为评判者进行自动评估
3. 提供手动验证的评估结果（通过交叉检查两个LLM评判者的输出）

许可证信息

视频版权归原始所有者所有，本存储库基于MMVU评估框架开发。

相关资源

论文：https://arxiv.org/abs/2508.02095v2
项目页面：https://vlm4d.github.io/
排行榜：https://vlm4d.github.io/#leaderboard

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理交叉领域，VLM4D数据集通过整合多个公开研究视频数据集（如DAVIS、YouTube-VOS和Ego4D）构建而成。其构建过程严格遵循多模态评估标准，每个数据条目包含唯一标识符、视频链接、多选问题类型、问题文本、四个选项及标准答案。视频资源均来源于公共研究数据集，确保了数据来源的合法性与多样性，同时通过精心设计的问题与选项对，有效捕捉时空动态信息。

特点

VLM4D数据集的核心特点在于其专注于评估视觉语言模型的时空感知能力。该数据集包含真实视频与合成视频两类数据，每段视频均配有多选题形式的问题，要求模型理解视频中的运动方向、物体交互等时空动态变化。数据集问题设计科学，选项设置合理，能够全面检验模型对复杂时空关系的推理能力。此外，数据集还提供了链式思维与直接输出两种推理模式，为模型评估提供了灵活多样的测试场景。

使用方法

使用VLM4D数据集时，研究人员需首先安装指定依赖包，随后通过提供的推理脚本运行模型生成响应。模型输出将根据数据类型（真实视频或合成视频）和提示方式（链式思维或直接输出）自动保存至相应目录。评估阶段通过执行准确率计算脚本，对模型输出进行自动化评分，同时提供人工验证结果以确保评估可靠性。最终，用户可通过统计脚本生成详细的性能报告，全面分析模型在时空感知任务上的表现。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，视觉语言模型在图像理解任务中已取得显著成就，然而其在处理动态视频内容时仍面临时空推理的瓶颈。VLM4D数据集由加州大学洛杉矶分校、微软研究院及加州大学圣克鲁兹分校的研究团队于2025年联合构建，旨在推动视觉语言模型在时空感知能力方面的突破。该数据集聚焦于视频问答任务，通过整合来自DAVIS、YouTube-VOS和Ego4D等权威公开视频数据资源，构建了涵盖真实与合成视频的多选题评测框架，为模型在动态场景中的因果推断、时序关系理解和运动方向识别等核心问题提供了标准化评估基准，对自动驾驶、机器人视觉和智能监控等领域具有重要推动作用。

当前挑战

VLM4D数据集致力于解决视频问答中时空感知的复杂性挑战，包括动态场景中的物体运动轨迹分析、事件时序逻辑推理以及跨帧语义一致性维护等问题。在构建过程中，研究团队面临多源视频数据格式异构性整合、时空标注的精确性与一致性保障，以及合成视频与真实视频间的域适应差异等难题。此外，为确保评估可靠性，需设计抗干扰的多选题框架并采用双LLM法官交叉验证机制，以克服单一模型评估中的主观偏差与错误传播风险。

常用场景

经典使用场景

在时空感知的视觉语言模型研究中，VLM4D数据集被广泛应用于评估模型对动态视频内容的理解能力。通过提供包含真实与合成视频的多选题问答对，该数据集能够系统测试模型在时空推理、动作识别以及场景动态变化分析等方面的性能。研究人员利用其丰富的视频-文本配对数据，深入探索模型在复杂视觉语言任务中的表现，为提升模型的时空感知能力提供了重要基准。

解决学术问题

VLM4D数据集致力于解决视觉语言模型在时空推理方面的核心学术问题，包括模型对动态场景的时序理解、空间关系推断以及多模态信息的融合能力。通过提供精确的标注和多样化的视频内容，该数据集帮助研究者识别模型在时空感知中的局限性，并推动新方法的开发，从而显著提升了模型在视频问答、行为分析和场景理解等任务中的性能与鲁棒性。

衍生相关工作

VLM4D数据集的发布催生了一系列重要的衍生研究，包括基于链式思维推理的模型优化、多法官评估机制的引入以及合成数据与真实数据融合的新方法。这些工作不仅扩展了时空感知研究的深度，还促进了如MMVU等评估框架的进一步发展，为视觉语言模型在动态场景中的能力提升提供了持续的理论与实践支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集