city-traffic-M, city-traffic-L
收藏arXiv2025-10-03 更新2025-10-04 收录
下载链接:
https://www.kaggle.com/datasets
下载链接
链接失效反馈官方服务:
资源简介:
本研究提出了一种名为city-traffic的数据集,旨在为城市交通预测提供更完整、真实和具有挑战性的基准。该数据集由两个城市的大型道路网络组成,其中最大的数据集包含近10万个独特的道路段,是现有数据集的10倍以上。数据集包含丰富的道路特征,并提供关于交通量和交通速度的细粒度数据,使构建更全面的交通预测系统成为可能。
This study proposes a dataset named city-traffic, which aims to provide a more comprehensive, realistic and challenging benchmark for urban traffic prediction. The dataset consists of large-scale road networks from two cities, with the largest one containing nearly 100,000 unique road segments, which is over 10 times the scale of existing datasets. It includes rich road features and provides fine-grained data on traffic volume and speed, enabling the construction of more comprehensive traffic prediction systems.
提供机构:
HSE University, Yandex Research
创建时间:
2025-10-03
搜集汇总
数据集介绍

构建方式
在智能交通系统研究领域,数据采集的精细度与覆盖范围直接影响模型性能评估的可靠性。city-traffic系列数据集通过聚合高分辨率GPS轨迹数据,构建了覆盖两大都市核心区域的道路网络图谱。其以15公里半径划定城市中心区域,完整收录范围内所有道路段,通过实际交通连接关系构建有向图结构,突破了传统传感器数据在空间密度与拓扑真实性方面的局限。数据采集周期覆盖2024年7月至11月,以5分钟为粒度持续记录交通流量与速度指标,同时整合26类道路静态属性,形成了时空维度完整的多模态数据体系。
特点
该数据集的核心价值体现在其前所未有的规模与细节层次。相较于传统基准数据集仅包含数百个监测节点,city-traffic-L囊括近10万个道路段,实现了数量级的突破。数据内容兼具动态时空序列与静态道路属性,不仅提供交通流量与速度的双重观测指标,还包含限速标准、道路材质、交通管制等关键特征。特别值得注意的是,数据集首次实现了真实道路连接拓扑的完整呈现,边缘关系严格遵循实际交通通行规则,为空间依赖性建模提供了准确基础。这种高密度城市路网结构与复杂交通模式的结合,构成了更具挑战性的预测场景。
使用方法
针对大规模时空图数据的特性,该数据集支持多种建模范式的验证与应用。研究者可采用图神经网络架构处理空间维度关联,结合时序建模方法捕捉动态规律。实践表明,传统时空模型面临显著的计算扩展挑战,而采用时序编码与图神经网络分离的架构能有效提升处理效率。具体实施时,建议将历史时序数据通过线性层编码为节点特征,再利用多层GNN进行空间信息聚合,此种方法在保持预测精度的同时显著降低计算复杂度。数据集已按时间顺序划分为训练、验证与测试子集,支持端到端的模型训练与评估流程。
背景与挑战
背景概述
城市交通预测作为智能交通系统的核心任务,其发展依赖于高质量数据集的支撑。2025年由HSE大学与Yandex研究院联合发布的city-traffic系列数据集,首次实现了对特大城市道路网络的细粒度覆盖。该数据集基于2024年7月至11月的高精度GPS轨迹数据,构建了包含5.3万至9.4万道路节点的时空图结构,突破了传统数据集仅包含数百个高速公路传感器的局限。通过整合26维道路属性特征与双模态交通流量速度数据,该数据集为复杂城市交通模式的建模提供了前所未有的研究基础,显著推动了城市计算与智慧交通领域的发展。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,传统交通预测模型难以捕捉高密度城市路网中复杂的时空依赖关系,特别是交叉口密集区域的非线性交通流动态;在构建过程中,需解决海量GPS轨迹数据的时空对齐难题,包括处理5%-25%的夜间速度数据缺失,以及将异构道路属性与动态交通变量进行标准化融合。此外,真实道路连通性图的构建需要克服交通规则约束下的有向图建模挑战,确保每个路段节点的拓扑关系精确反映实际通行逻辑。
常用场景
经典使用场景
在城市交通预测研究领域,city-traffic-M和city-traffic-L数据集为精细化城市道路网络建模提供了理想平台。这些数据集通过覆盖超过5万至近10万个道路段,构建了基于真实道路连通性的空间图结构,突破了传统数据集仅依赖传感器位置构建启发式图连接的局限。研究人员可利用这些数据集开发时空图神经网络模型,对交通流量和速度进行5分钟粒度的多步预测,特别适用于捕捉复杂城市交通模式中的早晚高峰动态变化。
解决学术问题
该数据集有效解决了城市交通预测领域的三大核心问题:首先,弥补了传统数据集因传感器稀疏分布导致的城市内部道路覆盖不足,通过GPS信号实现了全路段覆盖;其次,提供了基于真实道路连通性的图结构,取代了基于距离阈值的启发式构图方法;最后,首次同时提供交通流量和速度的双重动态变量,并配备26维道路属性特征,为构建更全面的交通预测系统奠定了数据基础。这些特性使得模型能够更准确地捕捉城市交通的复杂时空依赖关系。
衍生相关工作
基于这些数据集的特性和规模,研究社区已衍生出多个重要研究方向。在模型架构方面,出现了GNN-Mean和GNN-TrfAttn等高效图神经网络模型,它们通过简化时间序列处理模块实现了更好的可扩展性。在方法论层面,推动了时间-图分离建模范式的发展,即先通过线性层编码时间信息,再使用GNN处理空间依赖。此外,还激发了多任务学习框架的研究,同时预测交通流量和速度两个相关变量,以及探索如何有效利用丰富的道路属性特征提升预测精度。
以上内容由遇见数据集搜集并总结生成



