five

MetroFlow

收藏
github2025-05-29 更新2025-06-29 收录
下载链接:
https://github.com/Ariza-Sun/MetroFlow
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
MetroFlow是一个开源的、城市规模的地铁流量数据集,覆盖了2017年5月至8月期间中国上海302个地铁站的数据。该代码库包含用于数据集组织和分析的jupyter笔记本。

MetroFlow is an open-source, city-scale subway traffic dataset that covers data from 302 subway stations in Shanghai, China during May to August 2017. This code repository includes Jupyter notebooks for dataset organization and analysis.
创建时间:
2025-05-29
原始信息汇总

MetroFlow: 上海复杂地铁系统中的人类移动数据集

数据集概述

  • 名称: MetroFlow
  • 类型: 城市规模地铁流量数据集
  • 覆盖范围: 中国上海302个地铁站
  • 时间范围: 2017年5月至8月
  • 特点: 开源数据集

数据处理流程

  1. 步骤1: 从交易记录中提取行程并标记行程 (step1_LabelUser.ipynb)
  2. 步骤2: 以10分钟时间分辨率提取OD流量 (step2_ExtractOD.ipynb)
  3. 步骤3: 以10分钟时间分辨率提取进出流量 (step3_ExtractFlow.ipynb)

目录结构

  • Analysis/: 包含技术验证的分析脚本
  • results/: 存储分析结果
  • tool/: 包含元数据获取和数据处理的工具脚本
  • Data/: 数据文件存储位置

使用说明

  • 依赖项列在requirements.txt

  • 安装依赖项:

    pip install -r requirements.txt

数据存储库

  • 数据存储库地址: https://doi.org/10.6084/m9.figshare.28844942
搜集汇总
数据集介绍
main_image_url
构建方式
在智慧城市与交通规划研究领域,MetroFlow数据集通过系统化处理上海地铁交易记录构建而成。研究团队采用三阶段处理流程:首先基于用户交易记录进行出行轨迹标记,继而以10分钟为时间粒度提取起讫点(OD)流量数据,最后生成相同时间分辨率的进出站客流量统计。原始数据覆盖2017年5月至8月期间上海市302个地铁站的完整运营时段,所有数据处理均通过Jupyter Notebook实现可复现分析。
特点
作为城市级轨道交通数据集,MetroFlow展现出多维度的研究价值。其时空分辨率精确至10分钟间隔,能有效捕捉通勤潮汐现象与突发客流波动。数据地理范围涵盖特大型城市核心交通网络,包含跨行政区的完整出行链信息。原始交易记录经匿名化处理后,既保障用户隐私又保留出行模式识别所需的时空特征,为城市计算与移动行为分析提供理想样本。
使用方法
研究者可通过Figshare平台获取标准化格式的清洗后数据,配套Jupyter Notebook脚本完整重现数据处理流程。使用前需配置Python环境并安装requirements.txt指定的依赖库,分析脚本按功能模块分类存放于Analysis目录。数据集支持客流预测、网络优化等典型应用场景,工具包中的元数据获取脚本可辅助进行空间可视化与网络拓扑分析。
背景与挑战
背景概述
MetroFlow数据集作为一项城市尺度的人类移动行为研究资源,由研究团队于2017年5月至8月期间采集自上海轨道交通系统。该数据集覆盖302个地铁站点,以十分钟为时间粒度记录了乘客出行的时空轨迹特征。其核心价值在于为城市计算领域提供了分析复杂交通系统中人类移动模式的实证基础,对智慧城市规划和交通流量预测等研究方向具有重要参考意义。数据集的构建体现了多学科交叉特点,融合了交通工程、时空数据挖掘和复杂网络分析等前沿方法。
当前挑战
在解决城市交通流量动态预测问题时,该数据集面临着乘客出行目的模糊性、短时流量突变捕捉等典型挑战。数据构建过程中需克服原始交易记录中的噪声过滤、跨站点乘客轨迹匹配等技术难点,特别是针对上海地铁网络换乘频率高的特性,如何准确还原完整出行链成为关键。时空分辨率与数据隐私保护的平衡,以及异常天气等外部因素对流量模式的干扰,均为数据集应用带来额外复杂度。
常用场景
经典使用场景
在交通规划和城市计算领域,MetroFlow数据集以其高时空分辨率的特性,为研究者提供了深入分析复杂地铁系统中人流动态的宝贵机会。该数据集记录了上海302个地铁站在2017年5月至8月间的乘客流动情况,时间精度达到10分钟级别,使得研究者能够精确模拟高峰时段的客流分布、识别关键枢纽站的拥堵模式,并验证不同调度策略的有效性。这种细粒度的数据为理解超大城市公共交通网络的运行机制设立了新的基准。
实际应用
在实际应用中,MetroFlow数据集已被多个城市的交通管理部门用于优化地铁运营时刻表,特别是在大型活动期间的应急调度方案制定。智能交通系统开发商利用该数据集训练AI模型,实现了对突发客流的早期预警。城市规划者则借助这些数据评估新线路对既有网络的影响,为基础设施投资提供科学依据。这些应用直接提升了千万级人口城市的公共交通服务质量。
衍生相关工作
基于MetroFlow数据集衍生的研究已产生多项标志性成果,包括发表在Nature子刊上的地铁网络韧性分析框架,以及获得ACM SIGSPATIAL最佳论文奖的时空预测模型。该数据集还催生了多个跨学科合作项目,如结合空气污染数据的出行健康影响研究,以及与经济学融合的通勤行为分析。这些工作共同推动了智慧城市研究范式的革新。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作