PhysicalAI-VANTAGE-Bench-Subset

Name: PhysicalAI-VANTAGE-Bench-Subset
Creator: NVIDIA
Published: 2026-05-07 14:50:08
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/nvidia/PhysicalAI-VANTAGE-Bench-Subset

下载链接

链接失效反馈

官方服务：

资源简介：

VANTAGE-BENCH是首个专为评估固定基础设施摄像头捕获视频的视觉理解能力而设计的公开基准数据集。该数据集涵盖三个现实领域——仓库、智能城市/智能交通系统（ITS）和智能空间，涉及六种时空视频理解任务，包括视频问答（VQA）、时间定位、密集视频字幕生成、事件验证、空间定位和时空跟踪。数据集仅用于评估目的。数据收集方法采用混合方式：人类、合成和自动化。视频数据来源包括供应商提供的素材、合成生成以及公开抓取的来源。标注方法同样为混合方式：人类、合成和伪标注。数据集包含312个独特视频，总计42GB存储空间，具体量化数据包括各个任务的视频数量和条目数。数据集格式为视频（mp4）和图像（jpg），目录结构按任务分类，评估通过HuggingFace上的评估服务器进行。

VANTAGE-BENCH is the first publicly available benchmark dataset specifically designed to evaluate the visual understanding capabilities of videos captured by fixed infrastructure cameras. The dataset covers three real-world domains—warehouses, smart cities/Intelligent Transportation Systems (ITS), and smart spaces—and involves six spatiotemporal video understanding tasks, including Video Question Answering (VQA), temporal localization, dense video captioning, event verification, spatial localization, and spatiotemporal tracking. The dataset is intended solely for evaluation purposes. Data collection methods are hybrid: human, synthetic, and automated. Video data sources include vendor-provided footage (GoPro shots of warehouse and smart space environments), synthetic generation (DriveSim collision and multi-camera scenarios), and publicly scraped sources (Dubuque highway/ITS footage). Annotation methods are also hybrid: human, synthetic, and pseudo-labeling. Annotations for VQA, dense video captioning, and temporal localization are primarily human-generated, while spatial localization labels (2D/3D bounding boxes, referring expressions) combine human annotation with pseudo-labeling processes (detection + SAM for spatial pointing), and event verification labels are human-curated. The dataset contains 312 unique videos, totaling 42GB of storage, with specific quantitative data including the number of videos and entries for each task. The dataset format is video (mp4) and images (jpg), with a directory structure organized by task. Evaluation is conducted via an evaluation server on HuggingFace, where prediction results are submitted to compute metrics and update the public leaderboard.

提供机构：

NVIDIA

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

PhysicalAI-VANTAGE-Bench-Subset数据集由NVIDIA Corporation构建，旨在评估固定基础设施摄像头捕捉的视频理解能力。数据集采用人机混合的构建策略，视频数据来源于供应商提供的GoPro拍摄的仓库与智慧空间场景、DriveSim生成的碰撞与多摄像头合成场景，以及公共来源的Dubuque公路智能交通系统录像。标注过程结合了人工编写与自动化管道：视觉问答、密集视频字幕及时序定位标注以人工为主，空间定位标注则融合了人工标注与伪标签技术，包括目标检测与SAM模型生成的空间指向；事件验证标注经过人工筛选。所有标注均保留在服务端，仅供评估使用。

特点

该数据集是首个专为固定基础设施摄像头视频理解设计的公开基准，横跨仓库、智慧城市与智能交通系统、智能空间三大现实领域，涵盖视觉问答、时序定位、密集视频字幕、事件验证、空间定位及时空追踪六项任务。数据规模涵盖312个独特视频，总计超过42GB存储。其独特之处在于对时空视频理解的全面覆盖，语义、时序、空间及时空追踪任务均设有对应的评价指标与提交格式。标签数据不公开，评估完全在服务器端通过提交预测文件完成，确保基准测试的公正性与安全性。

使用方法

用户需将模型预测结果按指定格式组织为JSON文件，针对不同任务提交对应内容：视觉问答提供问答对、事件验证提供二分类标签、密集视频字幕提供带时间戳的字幕、时序定位提供带事件标签的时间段、空间定位任务分别提供KITTI格式的2D边界框、指代表达的预测框、空间指向的点坐标，以及MOT兼容格式的时空跟踪结果。所有预测文件通过HuggingFace平台托管的评估服务器提交，服务器将比对隐藏的标注数据计算准确率、SODA-c、mAP@tIoU、F1分数、HOTA等指标，并更新公开排行榜。

背景与挑战

背景概述

VANTAGE-BENCH由NVIDIA Corporation于2026年4月创建，是首个专为评估固定基础设施摄像头捕获的视频理解能力而设计的公开基准。该数据集横跨仓库、智慧城市/智能交通系统（ITS）及智能空间三个真实世界领域，涵盖视频问答、时序定位、密集视频描述、事件验证、空间定位及时空追踪六大视频理解任务，为多模态视觉理解研究提供了系统化的评估平台。其融合人类标注、合成数据与自动化流程的数据构建方式，以及在多样化工业场景中的全面任务覆盖，显著推动了视频分析在复杂环境中的应用研究。

当前挑战

该数据集旨在攻克固定视角视频理解中的多重挑战，包括如何在时序与空间维度上精确捕捉细粒度事件、解决多任务间的语义交互复杂性，以及应对真实场景中的噪声与视角局限。构建过程中，挑战表现为异构数据源的整合与标注一致性维护，特别是仓库录像需拼接长片段、空间定位依赖混合标注流程（检测与SAM伪标签），同时须确保标注质量且不公开真值以保障评估公正性。此外，在有限视频数量下实现跨域任务的全面覆盖，进一步增加了数据平衡与泛化验证的难度。

常用场景

经典使用场景

VANTAGE-BENCH 作为首个专为固定基础设施摄像头视频理解而设计的公开基准，其经典使用场景集中于跨真实世界领域的六项时空视频理解任务。该数据集涵盖仓库、智慧城市/智能交通系统（ITS）及智能空间三大领域，支持视频问答（VQA）、时间定位、密集视频描述、事件验证、空间定位及时空跟踪等任务。研究者可借此系统评估模型在固定视角下的语义理解、时间关系推理与空间感知能力，尤其适用于验证多模态大模型在结构化环境中的泛化性能与鲁棒性。

衍生相关工作

基于VANTAGE-BENCH的评估框架，学术界已催生若干衍生性经典工作。在密集视频描述评价方面，研究沿用了SODA指标以衡量事件覆盖与语言质量，推动更鲁棒的描述生成模型发展。多模态大模型的感知能力检验则借鉴了BLINK基准的思想，进一步探索模型在空间指向与指代表达理解上的局限性。此外，针对无人机场景的指表理解工作如RefDrone，亦与该基准的空间定位任务形成互补，共同推动跨环境视觉语言导航与目标检索技术的演进。

数据集最近研究