PhysicalAI-VANTAGE-Bench

Name: PhysicalAI-VANTAGE-Bench
Creator: NVIDIA
Published: 2026-05-07 14:51:32
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/nvidia/PhysicalAI-VANTAGE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VANTAGE-BENCH 是首个专门用于评估固定基础设施摄像头捕获视频的视觉理解能力的公开基准数据集。该数据集涵盖三个现实世界领域——仓库、智能城市/智能交通系统（ITS）和智能空间，涉及六个时空视频理解任务，包括视频问答（VQA）、时间定位、密集视频字幕生成、事件验证、空间定位和时空跟踪。数据集仅用于评估目的。数据收集方法采用混合方式：人类采集、合成生成和自动化采集。视频数据来源包括供应商提供的素材、合成生成以及公开爬取的来源。标注方法同样采用混合方式：人工标注、合成标注和伪标注。数据集包含视频（mp4）和图像（jpg）格式，总存储量为42 GB。具体量化数据包括各任务的详细条目和帧数。数据集的所有评估均在服务器端进行，真实标注未公开发布。

VANTAGE-BENCH is the first public benchmark dataset specifically designed to evaluate the visual understanding capabilities of videos captured by fixed infrastructure cameras. The dataset covers three real-world domains—warehouses, smart cities/Intelligent Transportation Systems (ITS), and smart spaces—and involves six spatiotemporal video understanding tasks, including Video QA (VQA), temporal localization, dense video captioning, event verification, spatial localization, and spatiotemporal tracking. The dataset is intended for evaluation purposes only. Data collection methods are hybrid: human collection, synthetic generation, and automated collection. Video data sources include vendor-provided footage (GoPro recordings in warehouse and smart space environments), synthetic generation (DriveSim collisions and multi-camera scenarios), and publicly crawled sources (Dubuque highway/ITS footage). Annotation methods are also hybrid: manual annotation, synthetic annotation, and pseudo-annotation. Annotations for VQA, dense video captioning, and temporal localization are primarily manual, while spatial localization annotations (2D/3D bounding boxes, referring expressions) combine manual annotation and pseudo-annotation processes (detection + SAM for spatial pointing). Event verification labels are manually curated. The dataset includes videos (mp4) and images (jpg) with a total storage size of 42 GB. Specific quantitative data includes: VQA task (296 videos, 1,257 entries), event verification (163 videos, 163 entries), dense video captioning (104 videos, 717 entries), temporal localization (221 videos, 1,280 entries), 2D object localization (3 videos, 27,404 bounding boxes, 628 frames), 2D referring expressions (1,503 images, 3,276 expressions), 2D spatial pointing (1,005 videos, 5,018 images), and spatiotemporal tracking (200 clips, 8 frames each, 200 objects, 1,600 frames). All evaluations of the dataset are conducted server-side, and the true annotations are not publicly released. Some warehouse videos are stitched clips from longer recording sessions.

提供机构：

NVIDIA

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

VANTAGE-BENCH数据集的构建融合了人工、合成与自动化三种采集手段，视频素材源自供应商提供的仓库与智能空间实景拍摄、DriveSim仿真系统生成的碰撞与多摄像头场景，以及公开爬取的公路交通流数据。标注流程亦采用混合策略，视觉问答、密集视频描述与时间定位的注释主要依赖人工编写，而空间定位标签则结合了人工标注与预标注流水线，利用目标检测与分割模型生成指向性表达。所有标注数据均保留在服务器端，仅用于评估，有效防止了数据泄露风险。

特点

作为首个专为固定基础设施摄像头视频理解设计的公开基准，该数据集横跨仓库、智能城市/交通系统与智能空间三个真实场景，覆盖视频问答、时间定位、密集视频描述、事件验证、空间定位及时空跟踪六项任务。其独特之处在于统一了语义、时间、空间与时空四大认知维度的评测，总计包含312段独立视频与数千条标注条目，存储规模达42 GB，能够全面衡量模型在多样化工业级场景下的视频理解能力。

使用方法

研究者需将模型预测结果按照指定格式提交至HuggingFace托管的评测服务器，服务器会依据持有的隐藏标注计算指标并更新公开排行榜。各任务提交格式有所不同：语义类任务采用问答对与二值标签的JSON文件，时间类任务需提供带时间戳的文本段，空间类任务则要求KITTI格式的边界框或点坐标，追踪任务使用MOT兼容格式。评测采用多维度指标，包括准确性、F1分数、SODA-c、mAP@tIoU、HOTA等，分别对应不同任务特性。

背景与挑战

背景概述

VANTAGE-BENCH是由NVIDIA于2026年4月创建的首个专为固定基础设施摄像头视频理解评估而设计的公共基准数据集。该数据集涵盖仓库、智慧城市/智能交通系统以及智能空间三大真实世界领域，并整合了视频问答、时序定位、密集视频描述、事件验证、空间定位及时空追踪等六项核心时空视频理解任务。其构建依托于混合数据采集与标注策略，融合了人类标注、合成生成及伪标签技术，显著拓展了视频分析在工业与城市等非传统场景中的评估边界。作为该领域的开创性工作，VANTAGE-BENCH为标准化评估基础设施视觉感知能力提供了关键资源，有力推动了多模态理解与具身智能系统的研究进展。

当前挑战

VANTAGE-BENCH旨在应对固定摄像头视角下复杂视频理解的多重挑战。领域层面，现有基准多聚焦于网络视频或驾驶场景，缺乏对仓库、智能城市等基础设施视角下时序与空间语义交织问题的系统评估，亟需覆盖从语义理解（VQA、事件验证）到精细时空定位（追踪、表达理解）的综合性诊断工具。构建过程中，数据来源的异构性（真实拍摄、合成模拟、公开爬取）带来了标注一致性难题，需混合人类精细标注、自动检测流程与伪标签管线以平衡质量与规模；同时，为防数据泄露而采用的服务端评估机制，以及仓库视频的片段拼接特性，均对评测公正性与任务泛化性构成潜在挑战。

常用场景

经典使用场景

VANTAGE-BENCH数据集专为评估固定基础设施摄像头所捕获视频的视觉理解能力而设计，涵盖仓储、智慧城市与智能交通系统以及智能空间三大真实世界领域。该数据集经典应用场景聚焦于六大时空视频理解任务：视频问答（VQA）要求模型在理解视频内容的基础上准确回答语义问题；时序定位旨在从长视频中精准检索特定事件发生的时间段；密集视频描述则需生成带有时间戳的完整事件叙述；事件验证评估模型对视频中事件真假的判别能力；空间定位涵盖2D目标检测、指代表达理解与空间点选任务；时空追踪则要求持续跟踪视频中的移动对象。这些任务共同构成了对模型在复杂环境下的综合视频理解能力的严格考验。

实际应用

在实际应用中，VANTAGE-BENCH所定义的任务与基础设施监控领域高度契合，能够直接赋能智能仓储管理系统，例如通过事件验证和时序定位自动识别货物装卸异常，或利用时空追踪持续监测作业流程。在智慧城市层面，该数据集可支撑交通违章检测、行人轨迹分析以及多摄像头协同追踪，为城市交通管理与公共安全提供技术支撑。在智能空间场景中，融合视频问答与空间定位的模型能够实现更自然的室内人机交互，例如根据语言指令精准定位特定物体。这些实际应用场景充分印证了该数据集在推动计算机视觉技术从研究走向部署过程中的关键桥梁作用。

衍生相关工作

VANTAGE-BENCH的发布催生了一系列相关研究工作的深化与拓展。其引入的密集视频描述评估采用SODA-c指标，推动了面向长视频事件覆盖与描述质量的精细化评价。在空间定位任务中，该数据集继承并拓展了如RefDrone等基准中针对指代表达理解的研究范式，将视角从无人机场景向下延伸至平视的固定摄像头视角。同时，评估框架中对多任务联合学习的强调，激励研究者探索共享视觉表征的跨任务模型，进而催生了面向基础设施监控场景的统一视频理解架构。此外，由于VANTAGE-BENCH强调视频的时空连续性，其为后续基于视频的多模态大语言模型在时序推理能力上的验证和优化提供了极具价值的测试床。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集