five

dr-pod/data-dive-mtd-gtfs-rt

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/dr-pod/data-dive-mtd-gtfs-rt
下载链接
链接失效反馈
官方服务:
资源简介:
CUMTD GTFS-Realtime存档(2026年4月23日至4月29日)是Champaign-Urbana Mass Transit District(CUMTD / MTD)GTFS-Realtime feed的时间戳公共存档。数据集包括三种类型的feed:vehicle_positions、trip_updates和service_alerts,从公共端点捕获,具有特定的轮询间隔。数据集的结构包含.pb.gz文件(包含串联的长度前缀protobuf)和.index.jsonl文件(每个轮询一个记录)。数据集用于学术研究,特别是关于UIUC课程释放行人激增和信号交叉口公交延误的研究。它包括occupancy_status和congestion_level等显著字段,用于延误和拥挤分析。数据集采用CC-BY 4.0许可,并要求归功于CUMTD。

The CUMTD GTFS-Realtime archive (Apr 23 – Apr 29 2026) is a timestamped public archive of the Champaign-Urbana Mass Transit District (CUMTD / MTD) GTFS-Realtime feeds. The dataset includes three types of feeds: vehicle_positions, trip_updates, and service_alerts, captured from public endpoints with specific polling intervals. The dataset is structured with .pb.gz files containing concatenated length-prefixed protobufs and .index.jsonl files with one record per poll. The dataset is intended for academic research, particularly on UIUC class-release pedestrian surges and bus delays at signalized intersections. It includes notable fields like occupancy_status and congestion_level for delay and crowding analysis. The dataset is licensed under CC-BY 4.0 and requires attribution to CUMTD.
提供机构:
dr-pod
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由伊利诺伊大学香槟分校的本科生Darsh Poddar在其学术研究项目中创建,旨在捕捉香槟-厄巴纳公共交通区(CUMTD)的实时公交运行状态。数据通过轮询CUMTD公开的GTFS-Realtime接口(如车辆定位、行程更新及服务告警端点)获得,其中车辆定位与行程更新以5秒为间隔高频采集,服务告警则每300秒轮询一次,覆盖时段为2026年4月23日至29日,总计约6.76天。原始protobuf消息被拼接为长度前缀的字节流并经过gzip压缩,按日期与小时分目录存储为.pb.gz文件,同时附带.jsonl格式的索引记录,详述每次轮询的时间戳、HTTP状态、实体数量及大小等信息。
特点
本数据集的核心价值在于其高时间分辨率与丰富的辅助字段,能够支持对公交延迟与拥挤度的深度分析。除了标准的GTFS-RT字段外,CUMTD提供了两个关键因子:occupancy_status(如空车、座位充足等)作为乘客负载的代理变量,以及congestion_level(如运行顺畅)用于反映道路拥堵状况。这些字段在整个存档期内持续存在,为预测公交延迟提供了强特征支持。此外,数据集结构规范,索引与数据分离,便于按需加载特定时间窗口的数据片段。
使用方法
使用者可通过Python的gzip与protobuf库进行解码:首先解压.pb.gz文件,然后以4字节无符号大端整数读取每条消息的长度,再解析对应的GTFS-RT FeedMessage对象,从而获取车辆位置、行程更新等结构化信息。索引文件.jsonl则提供了轻量级的元数据查询途径,可用于快速定位感兴趣的时间段或过滤无效轮询记录。数据遵循CC-BY 4.0许可协议,衍生成果需注明CUMTD出处,推荐引用格式为Darsh Poddar(2026)的存档版本。
背景与挑战
背景概述
在智能交通系统与城市公共出行研究中,实时公交数据的连续采集与公开归档始终是一项基础性挑战。2026年4月,美国伊利诺伊大学香槟分校(UIUC)本科生Darsh Poddar作为一项学术研究项目(聚焦于校园下课人流高峰与信号交叉口公交延误分析)的组成部分,创建了数据集data-dive-mtd-gtfs-rt。该数据集收录了香槟-厄巴纳大众交通区(CUMTD/MTD)GTFS-Realtime动态数据在2026年4月23日至29日约6.76天时间窗口内的连续快照,涵盖车辆位置、行程更新与服务警报三类核心数据流,以5秒至300秒不等的高频轮询捕获,并辅以逐次轮询的索引记录。不同于官方直播接口的实时覆盖特性,本数据集提供了迄今罕见的连续归档,填补了该区域公交动态数据长期保存的空白,为后续公交延误建模、客流拥堵分析及交通政策评估提供了高精度、结构化的实证基础。
当前挑战
该数据集所解决的核心领域挑战在于:公交实时数据历史记录的缺失使得依赖时序分析的延误预测与客流拥挤建模难以开展,而官方API仅提供瞬时数据且不支持回溯,限制了基于大样本重复观测的统计推断能力。构建过程中面临的挑战包括:第一,约2秒的经验刷新周期要求连续5秒的轮询策略必须在捕捉完整变化与规避请求超限之间取得平衡,同时容忍网络抖动;第二,车辆位置与行程更新数据面临传输间断、HTTP异常及实体计数波动等实时数据流的固有不稳定性,需通过索引记录中对轮询状态与错误信息的结构性标注加以核查;第三,数据最终以长度前缀协议缓冲流压缩存储,配合JSON行索引,要求后续研究者掌握特定解码与对齐流程才能有效使用,提高了复用的技术门槛。
常用场景
经典使用场景
data-dive-mtd-gtfs-rt数据集为实时公共交通数据研究提供了宝贵的时序存档,其经典使用场景聚焦于城市公交系统的动态行为分析。该数据集以高频率(每5秒)记录了车辆位置、行程更新和服务警报,覆盖了香槟-厄巴纳都会区近一周的运营数据。研究者可借助这一密集采样的时间序列,剖析公交车辆的时空轨迹演化规律,刻画拥堵等级与载客状态(如空车、座位充足、座位稀缺)的实时变化,从而构建精准的公交运行态模型。该数据集尤其适合用于延迟预测模型的训练与验证,因其实时刷新机制保证了数据的高时效性和连续性,为评估信号交叉口延误、站点滞留时间等微观交通现象提供了坚实的数据基础。
解决学术问题
该数据集有效解决了实时公共交通研究中长期存在的精细时序数据匮乏问题,填补了连续存档空白。在学术层面,它赋能研究者深入探讨多因素耦合下的公交延误机理解析,特别是通过车辆占用状态、交通拥堵信号与行程时间之间的非线性关系建模,推动了因果关系推断方法在交通领域的应用。数据集内嵌的占用状态字段被证实是延迟预测的最强特征,为揭示乘客负荷对运行效率的影响提供了实证依据。此外,基于该数据可系统验证大客流事件(如大学上下课引发的行人潮)与公交系统响应之间的动态交互,从而为优化信号配时、动态调度策略提供量化支撑,对发展智能交通系统理论具有深远意义。
衍生相关工作
该数据集衍生了一系列开创性的学术工作,其中最具代表性的是由数据集归档者Darsh Poddar领导的UIUC学术研究项目,该研究利用该存档系统探究了校园上下课时段行人激增与公交在信号交叉口延误之间的关联机制,将实时公交轨迹与行人活动数据融合分析,开创了微观交通行为耦合研究的新范式。此外,该数据集与GTFS静态数据的结合催生了一系列关于公交网络韧性与服务可靠性的研究,研究者通过对比计划时刻表与实时记录,量化了不同时段、天气及特殊事件下的服务波动性。这些衍生工作不仅深化了对公共交通系统动态演化规律的理解,也为后续开发具有鲁棒性的公交调度优化算法奠定了方法论与数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作