PhysicalAI-Traffic-Anomaly-Reasoning

Name: PhysicalAI-Traffic-Anomaly-Reasoning
Creator: NVIDIA
Published: 2026-05-03 23:05:23
License: 暂无描述

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/nvidia/PhysicalAI-Traffic-Anomaly-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

AETC（交通场景中的异常事件）数据集是AI City Challenge 2026 Track 3的官方训练集，包含3,670个交通监控视频（约26.1小时，其中异常视频9.2小时，正常视频16.9小时）的44,040个伪标注多任务注释。数据集涵盖10种任务类型，包括基础问答、场景/视频理解和时间推理，每个答案均附有明确的思维链推理轨迹。数据标注通过分层自动标注流程生成，结合了Gemini 3.1 Pro的三级视频描述和Gemma-4的多任务问答生成。数据集格式为tao-vl-reason-v1.0，包含10个JSON文件，每个文件对应一种任务类型。视频来源于8个公开数据集，需通过提供的脚本下载。数据集适用于智能城市交通监控、道路安全AI等应用场景，遵循CC-BY-4.0许可。

提供机构：

NVIDIA

创建时间：

2026-05-01

原始信息汇总

数据集概述：Anomalous Events in Transportation Context (AETC)

基本信息

数据集名称: Anomalous Events in Transportation Context (AETC)
发布机构: NVIDIA Corporation
许可证: CC-BY-4.0（仅限标注文件；原始视频需遵守各自上游数据集的许可证）
语言: 英语
创建时间: 2026年1月—2026年4月
应用领域: 交通监控、异常检测、视频事件推理、智能城市交通监测、道路安全AI

规模与内容

视频总数: 3,670段CCTV交通监控视频
总时长: 约26.1小时（异常事件9.2小时 + 正常事件16.9小时）
标注总数: 44,040条多任务伪标注
标注存储大小: 约100 MB
视频总下载大小: 约150 GB（主要来自UCF-Crime）

数据来源

视频来自以下8个公开数据集（未随本数据集重新分发，需通过提供的脚本下载）：

来源	参考信息
VAD-R1	https://arxiv.org/abs/2505.19877
TAD	https://arxiv.org/abs/2008.08944
Accident-Bench	https://arxiv.org/abs/2509.26636
SO-TAD	https://www.sciencedirect.com/science/article/abs/pii/S0925231224018320
TADBenchmark	https://arxiv.org/abs/2209.12386
Highway Traffic Videos Dataset	https://www.kaggle.com/datasets/aryashah2k/highway-traffic-videos-dataset
UCF Crime	https://arxiv.org/abs/1801.04264
Barbados Traffic Analysis Challenge	https://zindi.africa/competitions/barbados-traffic-analysis-challenge/data

任务类型与标注格式

标注采用 tao-vl-reason-v1.0 格式（NVIDIA TAO DAFT 子格式），共包含10种任务类型，每种任务对应一个独立的JSON文件：

任务分组	任务名称	文件名	描述	样本数
基础	事件验证（二分类）	`bcq.json`	二选一（Yes/No）	7,340
基础	事件验证+解释	`bcq_openended.json`	二选一+解释	7,340
基础	多项选择QA	`mcq.json`	单选字母	3,670
基础	多项选择+解释	`mcq_openended.json`	字母+解释	3,670
基础	开放式问答	`open_qa.json`	自由文本	3,670
场景	场景描述	`scene_description.json`	静态场景描述	3,670
场景	视频摘要	`video_summarization.json`	事件摘要	3,670
时序	时序定位	`temporal_localization.json`	`{"start": "MM:SS", "end": "MM:SS"}`	3,670
时序	因果关联	`causal_linkage.json`	异常原因分析	3,670
时序	事件描述	`temporal_description.json`	时间段内发生的事情	3,670

标注方法

采用混合标注方法：自动（VLM流水线）+ 人工（部分补充上下文）。

其中910段视频使用了NVIDIA已有的人工标注（全局视频描述、带起止时间戳的事件描述、逐帧目标边界框标注）作为补充上下文
每项标注均附带显式的思维链推理过程

数据集划分

仅提供训练集（3,670段视频，44,040条标注），无公开验证集/测试集。

使用快速指南

从HuggingFace仓库下载标注文件和辅助脚本
运行 download_videos.py 下载源视频（约150 GB）
手动下载 SO-TAD 数据（TeraBox无稳定CLI支持）
加载标注文件时设置 media_root 为视频存放目录

伦理与免责声明

第三方视频警告: 部分源视频可能包含令人不安的内容，如交通事故、犯罪及涉及车辆、行人或自行车骑手的非法活动
隐私尊重: 请尊重第三方源视频中可能出现的个人隐私，避免对个人进行画像或敏感使用
用户责任: 下载和使用源视频时，用户有责任遵守每个上游数据集的许可证和使用条款

搜集汇总

数据集介绍

构建方式

该数据集源自AI City Challenge 2026 Track 3，专为交通场景下的视频异常事件理解而设计。其构建过程采用层级式自动标注管线：首先由Gemini 3.1 Pro模型对视频进行三级字幕生成，涵盖全局场景描述、时间稠密描述以及短片段精细描述；随后通过MSTED合成模块将多级描述整合为结构化事件表征，并融入已有的人工标注信息；最后利用Gemma-4模型基于综合表征生成涵盖十种任务类型的问答对及显式思维链推理过程。总计44,040条伪标注数据覆盖3,670段来自八个公开数据集的交通监控视频，总时长约26.1小时。

特点

该数据集以多元任务设计为特色，囊括二元验证、多项选择、开放式问答、场景描述、视频总结、时间定位、因果关联及事件描述等十类任务，每项回答均附有清晰的推理链。所有标注遵循tao-vl-reason-v1.0格式组织，每种任务对应独立JSON文件，便于模块化调用。视频来源涵盖VAD-R1、TAD、UCF Crime等八个公开集，兼顾异常与正常场景，异常与正常视频时长分别为9.2小时和16.9小时，有效支撑异常检测与事件推理研究的交叉验证。

使用方法

使用者需通过提供的下载脚本获取原始视频，并将其存放至统一目录后，在加载标注文件时设置media_root指向该路径即可实现视频与标注的自动关联。数据集可直接用于训练视频语言模型，执行异常检测、事件时间定位、因果推理等任务。标注文件体积约100 MB，轻量便捷。建议结合NVIDIA TAO DAFT工具链进行格式解析与模型微调。下载过程中需注意SO-TAD源需手动获取，其余源可通过脚本自动获取，总视频量约150 GB。

背景与挑战

背景概述

该数据集由NVIDIA Corporation于2026年创建，旨在推动视频视觉语言模型在智能交通监控领域的异常事件推理能力。作为AI City Challenge 2026 Track 3的官方训练集，其核心研究问题聚焦于从监控视频中自动识别交通事故、异常行为等事件，并生成包含因果链条的问答解释。数据集整合了8个公开交通视频数据集中的3670个片段（约26.1小时），并通过层次化自动标注流水线生成了44040条伪标注数据，覆盖事件验证、场景描述、时间定位及因果推理等10类任务。该数据集的发布为智能城市交通监测和道路安全AI系统的评估提供了标准化基准，显著推动了视频异常检测与推理技术从简单分类向可解释性多任务推理的范式转变。

当前挑战

数据集主要应对两重挑战。领域问题层面，传统视频异常检测仅输出二元或类别标签，无法解释异常事件的时空关联与因果关系；而真实交通监控场景要求系统能同时回答“是否异常”“何时发生”“为何发生”等深层问题，这对模型的时序推理和因果理解能力构成严峻考验。构建过程中，多源视频的版权与格式异构问题突出（如TAD需将帧序列拼接为视频、HTV格式需转码），SO-TAD因托管在TeraBox平台需手动下载，导致数据获取流程复杂；此外，为确保标注质量，自动标注流水线需融合Gemini 3.1 Pro和Gemma-4等模型的输出，并对910个视频引入NVIDIA人工标注作为上下文，在高吞吐与高精度间寻求平衡。

常用场景

经典使用场景

PhysicalAI-Traffic-Anomaly-Reasoning数据集，全称为Anomalous Events in Transportation Context (AETC)，专为交通监控场景下的视频理解与异常事件推理而设计。其经典使用场景涵盖从基础的二分类异常事件验证（如判断是否发生追尾事故）到多模态推理任务，包括多选问答、开放式问答、场景描述、视频摘要、时序定位（异常发生的时间区间）、时间区间内事件描述，以及因果链条推理（分析异常事件的致因）。该数据集以44,040条伪标注的多任务样本覆盖3,670段CCTV交通视频，每一问答均附带显式的链式思维推导过程，使其成为训练视频大语言模型进行细粒度交通事件逻辑推理的理想基准。

衍生相关工作

AETC数据集的发布催生了一系列开创性研究工作。在模型架构层面，研究者基于其十类任务构造了统一的视频推理基线模型，并探索了共享视觉编码器与任务特定解码头的多任务学习范式。在推理机制方面，链式思维标注的引入直接促成了面向视频推理的‘逐步思考’微调策略，相关成果在时序因果链提取与异常事件归因任务上刷新了性能记录。此外，该数据集推动了跨数据集泛化研究——由于语料整合了八个公开交通数据集，基于AETC预训练的模型在VAD-R1，TAD等独立测试集上展现了优异的知识迁移能力，为构建通用交通事件理解引擎奠定了实证基础。

数据集最近研究