witgaw/PEMS-BAY
收藏Hugging Face2025-12-04 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/witgaw/PEMS-BAY
下载链接
链接失效反馈官方服务:
资源简介:
PEMS-BAY交通数据集包含用于时间序列预测任务的交通流量数据,常与图神经网络(GNN)结合使用,特别是用于扩散卷积循环神经网络(DCRNN)模型。数据集以Parquet文件格式存储,有效支持加载数据和分析。数据集被分为训练集(70%)、验证集(10%)和测试集(20%),并按时间顺序划分以保持数据的时序特性。每个时间点的数据包括所有传感器的信息,并保留了图结构。数据模式包括传感器节点标识、不同时间偏移量和维度的输入特征以及未来时间步的目标值。数据集包含大约34K个时间序列样本(METR-LA)和52K个(PEMS-BAY),记录数分别为7M和17M,每个样本包含207个(METR-LA)和325个(PEMS-BAY)传感器的数据。时间分辨率为5分钟,预测范围为1小时(12个时间步)。
The PEMS-BAY Traffic Dataset contains traffic flow data for time series forecasting tasks, commonly used with Graph Neural Networks (GNNs) especially with the Diffusion Convolutional Recurrent Neural Network (DCRNN) model. The dataset is stored in Parquet file format for efficient loading and analysis. It is split into training (70%), validation (10%), and test (20%) sets, with temporal splitting to maintain chronological order. Each time step includes data from all sensors, preserving the graph structure. The data schema includes a sensor/node identifier, input features at different time offsets and dimensions, and target values for future time steps. The dataset consists of approximately 34K time series samples (METR-LA) and 52K (PEMS-BAY), with 7M and 17M records respectively, and includes data from 207 (METR-LA) and 325 (PEMS-BAY) sensors per sample. The temporal resolution is 5-minute intervals, and the prediction horizon is 1 hour (12 time steps).
提供机构:
witgaw
搜集汇总
数据集介绍

构建方式
在智能交通系统研究领域,时空数据的高效组织至关重要。PEMS-BAY数据集的构建采用了严谨的时序分割方法,以规避数据泄露风险。其原始交通流数据经过系统化处理,被划分为训练集、验证集和测试集,比例分别为70%、10%和20%,且严格遵循时间先后顺序进行划分。所有传感器的数据在每一时间步均被完整保留,确保了时空维度的完整性。数据最终以Parquet格式存储,兼顾了加载效率与分析便捷性,为图神经网络等模型提供了结构规整的输入。
使用方法
为便于研究者使用,该数据集已预先分割并封装。用户可通过标准的数据加载库,直接读取对应的Parquet文件,快速构建训练、验证和测试数据集。在建模时,需注意其输入特征(x_t*_d*)与目标值(y_t*_d*)的对应关系,前者提供历史观测与时间上下文,后者则为待预测的未来序列。数据集的结构天然支持基于图神经网络的端到端训练,研究者可专注于模型架构设计与算法优化,而无需进行繁琐的数据预处理与分割工作。
背景与挑战
背景概述
PEMS-BAY交通数据集是智能交通系统研究领域的重要基准,其构建源于对高精度、长时程交通流预测的迫切需求。该数据集由南加州大学等机构的研究团队于2018年前后主导创建,核心研究问题聚焦于如何利用时空图神经网络模型,如扩散卷积循环神经网络(DCRNN),来精准预测未来一小时内以五分钟为间隔的交通流量。数据集涵盖了旧金山湾区325个传感器的密集观测,以其精细的时间分辨率和完整的空间拓扑结构,极大地推动了交通预测从传统统计方法向深度学习范式的演进,并为图神经网络在时空数据建模中的应用奠定了实证基础。
当前挑战
该数据集旨在应对交通流预测这一经典时空序列预测问题的核心挑战,即如何有效捕捉交通网络中复杂的时空依赖性与动态扩散模式。其构建过程同样面临诸多困难:原始传感器数据存在噪声与缺失值,需进行严谨的清洗与插补;为确保模型评估的可靠性,必须采用严格的时间顺序划分策略以防止数据泄露;同时,将非结构化的传感器网络拓扑与高维时间序列整合为适用于图神经网络的统一表征,亦是一项复杂的工程。这些挑战共同塑造了数据集的最终形态与使用规范。
常用场景
经典使用场景
在智能交通系统领域,PEMS-BAY数据集作为时空序列预测的基准资源,其经典应用场景集中于交通流量的多步预测。该数据集以五分钟为间隔的高频采样,捕捉了湾区数百个传感器节点的交通动态,为图神经网络模型提供了兼具时间依赖性与空间关联性的训练与验证平台。研究者通常利用其历史十二个时间步的流量数据,预测未来一小时的交通状况,这一设定精准模拟了现实世界中短期交通管理的核心需求。
解决学术问题
该数据集有效应对了交通预测中因复杂时空耦合关系带来的建模挑战。传统时间序列方法往往忽略路网的空间拓扑结构,而PEMS-BAY通过提供传感器位置隐含的图结构信息,促使研究转向扩散卷积循环神经网络等先进架构。它解决了如何同时编码路网邻接关系与时间演化模式这一关键学术问题,为评估模型在捕获非线性时空相关性方面的能力提供了标准化的测试床,显著推动了时空数据挖掘领域的方法论进展。
实际应用
在实际交通管理与规划中,基于PEMS-BAY训练的预测模型能够赋能动态交通诱导、拥堵预警与信号灯优化配时等系统。交通管理部门可依据模型输出的未来流量态势,提前部署疏导策略,缓解高峰时段的路网压力。此外,预测结果也为出行者提供精准的行程时间预估,助力导航应用优化路径规划,从而在宏观与微观层面共同提升城市交通系统的运行效率与居民出行体验。
数据集最近研究
最新研究方向
在智能交通系统领域,交通流量预测作为核心任务,正推动着时空数据建模技术的革新。PEMS-BAY数据集凭借其精细的时空分辨率与图结构特性,已成为图神经网络与时空序列预测交叉研究的重要基准。当前前沿探索聚焦于融合多模态信息的动态图神经网络架构,旨在更精准地捕捉交通网络中复杂的时空依赖关系与突发性事件影响。伴随智慧城市建设的深入推进,该数据集在支撑实时交通管理、拥堵缓解策略评估以及自动驾驶路径规划等热点应用中展现出关键价值,持续为交通科学领域的算法创新与实证研究提供坚实的数据基础。
以上内容由遇见数据集搜集并总结生成



