Chennai Metro Ridership Dataset
收藏github2026-02-11 更新2026-02-12 收录
下载链接:
https://github.com/PratyushBalaji/chennai-metro-ridership-tracker
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含金奈地铁的乘客量数据,包括每日、每小时和各个车站的乘客流量统计数据,以及按票价支付方式、车辆类型和相邻车站对的峰值小时方向交通(PHPDT)乘客量数据。数据从2026年1月24日开始收集。
This dataset contains passenger volume data for the Chennai Metro, including daily, hourly, and station-level passenger flow statistics, as well as passenger volume data categorized by fare payment methods, vehicle types, and peak-hour directional traffic (PHPDT) between adjacent station pairs. Data collection began on January 24, 2026.
创建时间:
2026-01-20
原始信息汇总
金奈地铁乘客量追踪数据集概述
数据集基本信息
- 数据集名称:Chennai Metro Ridership Tracker
- 数据来源:金奈地铁有限公司(Chennai Metro Rail Limited, CMRL)公开提供的乘客流量仪表板数据
- 数据采集方式:通过分析CMRL官方乘客流量仪表板的网络流量,调用内部(但可公开访问)API进行数据抓取;计划未来将改用基于Selenium(或替代浏览器自动化工具)的抓取流程
- 数据采集起始日期:2026年1月24日
- 项目主要目的:用于研究、教育和信息目的,旨在随时间推移归档金奈地铁的乘客量数据
- 项目灵感来源:班加罗尔Namma地铁的类似项目(https://github.com/thecont1/namma-metro-ridership-tracker)
数据集内容与范围
该数据集通过抓取并归档CMRL官方仪表板的公开数据,构建了金奈地铁随时间变化的乘客量数据集。具体包含以下三类数据:
-
乘客量数据(按票价支付方式细分):
- 每日总乘客量
- 每小时乘客量
- 各站点乘客量
-
停车数据(按车辆类型细分):
- 每日停车数据
- 每小时停车数据
- 各站点停车数据
-
高峰小时单向交通流量数据:
- 每日相邻站点对的PHPDT(Peak Hour Per Direction Traffic)乘客量数据
数据文件与结构
数据集以CSV格式存储,包含以下主要文件:
- 每日乘客量数据:
ChennaiMetro_Daily_Ridership.csv - 每小时乘客量数据:
ChennaiMetro_Hourly_Ridership.csv - 各站点乘客量数据:
ChennaiMetro_Station_Ridership.csv
当前数据结构设计
- 通用列:
Date(日期)、Total(总计)、按字母顺序排列的所有支付方式列(如储值卡、NCMC卡、WhatsApp二维码等) - 特定列:
- 每小时数据文件包含
Hour列(HH:MM格式) - 站点数据文件包含
Line列(01|02)和Station列(3字母唯一站点代码)
- 每小时数据文件包含
相关工具与脚本
- 数据抓取与处理脚本:
ridership.py:处理乘客量数据parking.py:处理停车数据phpdt.py:处理PHPDT数据- 依赖库:
os,pandas,requests
- 数据可视化示例:
ChennaiMetroDataViz.ipynb(Jupyter Notebook),演示如何使用收集的数据重现官方CMRL仪表板中的图表 - API测试集合:
CMRL API/文件夹中包含用于API测试的Bruno集合,可导出至Postman或cURL请求 - 依赖管理:
requirements.txt文件列出了通过pip安装所需Python模块的要求
项目状态与计划
- 已完成:使用GitHub Actions(CI/CD)实现数据抓取自动化
- 待完成:
- 数据验证和错误处理逻辑
- 将直接API调用替换为基于Selenium(或替代浏览器自动化工具)的控制流程
- 最终确定数据存储模式
许可信息
本项目采用MIT许可证,详情见LICENSE文件。
搜集汇总
数据集介绍

构建方式
金奈地铁乘客流量数据集通过自动化脚本从金奈地铁有限公司的官方乘客流量仪表板中抓取公开数据构建而成。项目初期利用内部可调用的API接口进行数据采集,未来计划转向基于Selenium的浏览器自动化工具,模拟人工操作以增强数据获取的稳健性。数据采集自2026年1月24日起持续进行,涵盖每日、每小时及站点级别的乘客流量统计,并通过GitHub Actions实现自动化更新,确保数据的时效性与连续性。
特点
该数据集以多维结构呈现,不仅包含每日聚合的乘客总量,还细分为小时级与站点级流量,并按照支付方式如储值卡、NCMC卡及WhatsApp二维码等进行分类。数据存储采用CSV格式,兼顾可读性与易处理性,支持从基础分析到复杂建模的多种研究需求。其独特之处在于记录了中央站与阿兰杜尔站的重复数据,以区分不同地铁线路的乘客分布,为交通流量模式研究提供了精细视角。
使用方法
研究人员可通过直接访问GitHub仓库中的CSV文件获取历史数据,或利用附带的Python脚本与Jupyter笔记本进行自定义分析与可视化。数据集适用于交通规划、乘客行为建模及城市基础设施评估等领域,支持时间序列分析、空间分布研究及多变量统计。使用时应遵循项目免责声明,仅限研究与教育目的,避免对官方服务器造成额外负载,确保数据应用的合规性与伦理性。
背景与挑战
背景概述
城市轨道交通客流数据集作为交通规划与管理的重要基础,其构建与分析对于优化公共交通系统具有关键意义。Chennai Metro Ridership Dataset 由独立研究者于2026年1月24日启动创建,旨在通过自动化脚本从金奈地铁有限公司的公开仪表板中持续采集客流数据。该项目灵感来源于类似的金奈地铁追踪项目,核心研究问题聚焦于长期归档并分析金奈地铁的日度、小时及站点维度的乘客流量统计,以支持交通流量模式识别、服务效率评估及基础设施规划。该数据集通过提供细粒度的支付方式与车辆类型分类,为城市交通研究领域贡献了宝贵的时序数据资源,增强了公共交通数据透明性与可及性。
当前挑战
在构建 Chennai Metro Ridership Dataset 过程中,研究者面临多重挑战。领域层面,该数据集致力于解决城市地铁客流动态监测与预测问题,其挑战在于如何从有限的公开数据中提取高精度、多尺度的客流模式,以应对复杂城市环境下的交通需求波动。构建过程中,数据采集依赖于临时性的内部API,存在服务稳定性与长期可用性风险;研究者计划转向基于浏览器自动化的爬取方法以模拟人工操作,但需克服网站结构变更与反爬机制的技术障碍。此外,数据存储结构需平衡多维数据(如时间、站点、支付方式)的呈现效率与用户友好性,当前CSV格式在处理小时与站点维度时可能导致数据冗余,亟待优化存储方案以支持更严谨的分析需求。
常用场景
经典使用场景
在公共交通规划与智能城市研究领域,金奈地铁乘客流量数据集为学者提供了详实的时空行为分析基础。该数据集通过聚合每日、每小时及站点级别的乘客流动统计,经典应用于地铁运营效率评估、高峰时段识别以及乘客出行模式挖掘。研究人员可借助这些结构化数据,构建客流预测模型,优化列车调度策略,从而提升城市轨道交通系统的服务效能与资源利用率。
衍生相关工作
该数据集的公开衍生了一系列经典研究工作,例如基于时间序列分析的客流预测模型构建,以及结合机器学习算法的异常流量检测系统开发。受班加罗尔地铁类似项目的启发,相关研究进一步拓展至多城市交通对比分析,探索不同地域背景下地铁运营模式的异同。这些工作不仅丰富了智能交通领域的学术成果,也为开源数据驱动的研究范式树立了典范。
数据集最近研究
最新研究方向
在智慧城市与公共交通优化领域,金奈地铁乘客数据集为研究者提供了精细化的时空分析基础。当前前沿研究聚焦于利用该数据集中的日度、小时级及站点级客流统计,结合支付方式等多元维度,探索乘客流动模式与城市动态的关联。热点方向包括基于机器学习的时间序列预测模型开发,以支持地铁运营调度与应急管理;同时,数据驱动的站点客流聚类分析正助力于城市交通网络的韧性评估与规划优化。这些研究不仅深化了对大都市通勤行为的理解,也为可持续交通政策的制定提供了实证支撑,具有显著的学术与实践意义。
以上内容由遇见数据集搜集并总结生成



