NYC-EMS-Traffic V4 (NET-V4)

github2026-05-03 更新2026-05-04 收录

下载链接：

https://github.com/netv4anon/net-v4-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个时空基准数据集，将纽约市交通局自动交通记录器（ATR）观测数据与FDNY EMS调度记录对齐，用于干预感知的交通预测。

A spatio-temporal benchmark dataset that aligns observational data from the New York City Department of Transportation's Automatic Traffic Recorders (ATR) with FDNY EMS dispatch records, designed for intervention-aware traffic forecasting.

创建时间：

2026-05-02

原始信息汇总

数据集概述：NYC-EMS-Traffic V4 (NET-V4)

该数据集是一个时空基准数据集，旨在将纽约市交通局的自动交通记录仪观测数据与纽约市消防局紧急医疗服务调度记录对齐，用于支持干预感知的交通预测。

核心特性

数据集名称：NYC-EMS-Traffic V4 (NET-V4)
样本数量：33,076个样本（20,000个紧急车辆活跃样本 + 13,076个控制组样本）
图节点：363个纽约市交通传感器路段
时间跨度：2018年1月至2023年12月
时间分辨率：15分钟间隔，24步窗口（12步输入 + 12步输出）
空间覆盖：纽约市5个行政区（布朗克斯、布鲁克林、曼哈顿、皇后区、史泰登岛）
数据集划分：训练集22,028 / 验证集5,523 / 测试集5,525（67/17/17），按紧急车辆/控制标签分层

设计目的

现有交通预测基准数据集在稳态条件下评估模型，而NET-V4通过添加运营事件标签（与交通传感器读数对齐的紧急车辆调度记录），支持以下研究方向：

观测分布偏移下的时空预测
针对运营干预信号的鲁棒性评估
带标签基准数据集中的因果混杂分析
跨行政区域的地理公平性审计

数据来源

自动交通量计数：来自纽约市交通局的永久传感器站点，提供15分钟间隔的交通量数据
紧急医疗服务事件调度数据：由纽约市消防局提供，包含时间戳和位置的紧急医疗服务调度记录

两数据源均根据纽约市开放数据使用条款公开提供。

数据集文件

文件名	大小	描述
`NYC_EMS_Traffic_V4.csv`	~14 MB	完整表格数据（33,076行 × 22列）
`NYC_EMS_Traffic_V4.npz`	~17 MB	NumPy张量存档，用于直接加载
`NYC_EMS_Traffic_V4_graph.npz`	~593 KB	邻接矩阵和节点元数据
`DATASET_CARD.md`	~6 KB	详细数据集文档

许可证

数据集：Creative Commons Attribution 4.0 International (CC BY 4.0)
代码：MIT许可证
底层数据：遵循纽约市开放数据使用条款

搜集汇总

数据集介绍

构建方式

NET-V4数据集整合了纽约市交通局自动交通记录器（ATR）的交通流量观测数据与纽约市消防局（FDNY）的紧急医疗调度（EMS）记录。构建过程通过R树最近邻匹配算法，在0.02度半径范围内实现交通传感器与EMS事件的空间对齐。数据涵盖2018年1月至2023年12月，时间分辨率为15分钟，共收集33,076个样本，其中包含20,000个紧急车辆活跃样本和13,076个对照样本。数据集按67/17/17比例划分为训练集、验证集和测试集，并通过紧急车辆标签进行分层抽样，确保类别分布均衡。

特点

该数据集的核心创新在于引入了干预感知的事件标签，将应急调度记录与交通传感器读数对齐，支持在局部运行扰动场景下的时空预测研究。与现有稳态基准数据集不同，NET-V4具备观察分布偏移下的预测能力、鲁棒性评估、因果混杂分析以及跨行政区地理公平性审计等多元应用价值。数据集包含363个纽约市交通传感器节点，覆盖五大行政区，每个样本包含12个输入时间步和12个输出时间步的24步窗口结构。

使用方法

用户可通过pip安装依赖后，调用net_dataset模块的load_net函数加载数据，直接获取训练、验证、测试张量及邻接矩阵。数据以NumPy npz格式和CSV表格形式提供，便于灵活处理。同时支持PyTorch DataLoader接口，可自定义批量大小和采样策略。数据集构建脚本完全开源，用户可通过GitHub仓库运行fetch_and_build_nyc_dataset_v4.py脚本，从NYC OpenData API自动获取原始数据并复现完整数据集。

背景与挑战

背景概述

时空交通预测是智能交通系统与城市计算领域的核心议题，旨在通过历史数据预测未来交通状态，以辅助交通管理与应急响应。现有基准数据集如METR-LA与PeMS多聚焦于稳态场景，缺乏对突发事件对交通流影响的建模能力。NET-V4数据集应运而生，由纽约市相关研究机构于2026年创建，核心研究人员匿名，旨在填补这一空白。该数据集整合了纽约市交通局自动交通记录仪（ATR）的传感器观测数据与消防局（FDNY）的紧急医疗调度记录，构建了包含33,076个样本（其中20,000个为急救车辆活跃样本）的时空基准，覆盖2018年至2023年纽约五大行政区的363个交通传感器片段。NET-V4的核心研究问题在于探索局部运营干扰下的交通预测行为，支持分布偏移下的时空预测、干预感知鲁棒性评估、因果混杂分析以及跨行政区的地理公平性审计，对推动应急响应驱动的交通预测研究具有标杆意义。

当前挑战

NET-V4数据集面临的核心挑战在于应对时空交通预测中长期存在的分布偏移问题，即突发事件（如急救车辆出动）导致交通模式偏离稳态假设，传统模型常因此性能骤降。具体而言，挑战包括：1）领域问题层面的挑战，即如何在观测到运营干预信号（如急救调度）时，准确捕捉其对局部交通流量的非线性影响，并实现短时预测（15分钟分辨率的12步长输出）的鲁棒性提升；2）构建过程中的挑战，涉及跨部门异构数据源（纽约交通局与消防局）的空间对齐，需通过R-tree最近邻匹配在0.02度半径内完成传感器与调度记录的关联，且耗时约30分钟的API数据获取要求稳定的网络环境，同时15分钟粒度的数据采样与多变量特征的归一化处理进一步增加了预处理复杂度。

常用场景

经典使用场景

在时空交通预测领域，NET-V4数据集最为经典的应用场景是评估和提升模型在突发事件干预下的预测鲁棒性。传统基准如METR-LA或PeMS多假设交通流处于稳态，而NET-V4通过精准对齐纽约市交通传感器读数与FDNY紧急医疗调度记录，为每个样本标注了应急车辆是否活跃的二元标签。研究者可借此构建两类任务：其一是将应急事件作为已知协变量输入模型，考察模型在局部扰动下的动态预测能力；其二是将事件标签作为测试时的分布偏移信号，用于评估模型对非平稳环境的适应程度。该数据集以15分钟为分辨率、12-12的输入输出窗口设计，天然适配于图神经网络或Transformer架构的时空序列建模流程。

实际应用

在实际城市交通管理中，NET-V4的应用价值体现在三个关键场景。首先是**应急路线动态优化**：利用数据集训练的模型可提前15分钟至1小时预测应急车辆通行路段的交通流量变化，辅助调度中心选择拥堵风险最低的行驶路径。其次是**交通信号智能调控**：结合应急事件标签的预测结果可作为主动式信号灯配时优化的输入，在救护车接近前自动调整绿灯相位，缩短响应时间。最后是**城市韧性评估**：通过对比应急事件发生前后交通状态的预测偏差，交通部门能够量化突发事件对路网通行能力的冲击幅度，从而优化应急预案的资源分配策略。纽约市五大行政区的地理覆盖设计还使该数据集能够支持区域间的迁移学习研究。

衍生相关工作

基于NET-V4的独特标注特性，已衍生出若干代表性研究方向。**鲁棒时空图网络**是第一个直接受益的模型家族，研究者通过引入事件感知的注意力机制或对抗训练策略来提升模型对应急扰动的抗干扰能力。**因果推断与反事实预测**领域的工作利用该数据集的二元事件标签构建双层因果图，将应急调度作为干预变量，量化其对交通流量的处理效应，进而开发出能够回答‘如果未发生该应急事件，交通状态将如何演化’的反事实预测模型。**地理公平性审计**成为新的交叉方向，学者们通过分析模型在布朗克斯与曼哈顿等不同行政区的预测误差分布，揭示了基础设施资源不均可能导致的预测偏差，并提出了基于行政区嵌入的公平性约束损失函数。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集