MTA New York City Subway dataset
收藏github2021-10-13 更新2024-05-31 收录
下载链接:
https://github.com/bestkao/analyzing-the-nyc-subway-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了2011年5月纽约市地铁的每小时进出站数据,以及与Weather Underground提供的天气数据相结合,包括气压、风速、温度、总降水量、降雨、雾和雷暴等信息。
This dataset comprises hourly entry and exit data for the New York City subway in May 2011, integrated with weather data provided by Weather Underground, including atmospheric pressure, wind speed, temperature, total precipitation, rain, fog, and thunderstorms.
创建时间:
2015-08-06
原始信息汇总
数据集概述
数据集名称
NYC Subway Dataset
数据集描述
本数据集包含2011年5月纽约市地铁的每小时进出站数据,以及来自Weather Underground的天气数据。地铁数据包括每小时的进出站次数(UNIT),而天气数据包括气压、风速、温度、总降水量以及是否有雨、雾、雷暴等信息。
数据集内容
- 地铁数据字段:
- UNIT:站点代码
- DATEn:日期
- TIMEn:时间
- Hour:小时
- DESCn:描述
- ENTRIESn_hourly:每小时进站次数
- EXITSn_hourly:每小时出站次数
- 天气数据字段:
- maxpressurei:最高气压
- maxdewpti:最高露点温度
- meandewpti:平均露点温度
- meanpressurei:平均气压
- fog:雾
- rain:雨
- meanwindspdi:平均风速
- mintempi:最低温度
- meantempi:平均温度
- maxtempi:最高温度
- precipi:降水量
- thunder:雷暴
数据集用途
本数据集用于分析地铁乘客量与降雨事件之间的关系,通过统计测试和线性回归模型来探索天气条件对地铁使用的影响。
数据集分析方法
- 统计测试:使用Mann-Whitney U-test比较有雨和无雨情况下的进站次数,以确定两者是否来自同一分布。
- 线性回归:采用梯度下降法进行线性回归分析,选取的特征包括降雨、降水量、小时和平均温度,以预测每小时的进站次数。
数据集分析结果
- 统计测试结果:Mann-Whitney U-test显示,有雨和无雨情况下的进站次数分布存在显著差异,p值为0.0249999127935,小于0.05的显著性水平。
- 线性回归结果:线性回归模型的R^2值为0.458044314039,表明模型对数据的拟合程度一般,可能需要更复杂的模型来更好地解释数据。
数据集可视化
- 进站次数分布:通过直方图展示了有雨和无雨情况下的每小时进站次数分布,显示两者均非正态分布,且有雨天数的样本量较少。
- 平均每小时乘客量:通过线图展示了每天不同时间段的平均每小时乘客量,显示早晚高峰时段乘客量较高。
- 平均每小时乘客量按星期几:通过条形图展示了不同星期几的平均每小时乘客量,显示工作日乘客量普遍高于周末,周六乘客量高于周日。
结论
分析结果表明,纽约市地铁在雨天的乘客量显著高于非雨天,这可能与天气条件影响人们的出行选择有关。
搜集汇总
数据集介绍

构建方式
MTA New York City Subway数据集是通过整合2011年5月的纽约地铁每小时进出站数据与Weather Underground提供的天气数据构建而成。地铁数据记录了每个地铁站(UNIT)的每小时进出站人数,而天气数据则包含了气压、风速、温度、降水量以及是否下雨、有雾或有雷暴等特征。这两部分数据通过日期和时间进行了匹配,形成了一个综合性的数据集,便于分析天气对地铁客流量的影响。
特点
该数据集的特点在于其多维度的数据整合,不仅包含地铁系统的详细客流量信息,还结合了天气数据,使得研究者能够深入探讨天气因素对地铁使用率的影响。数据集中每小时的地铁进出站记录与天气条件的结合,为分析提供了丰富的时间序列特征。此外,数据集的天气部分包含了多种气象指标,如降水量、温度等,这些指标为研究提供了多样化的变量选择。
使用方法
该数据集的使用方法主要包括数据加载、特征选择、统计分析以及可视化。首先,数据集可以通过Pandas库加载为DataFrame格式,便于后续的数据处理和分析。研究者可以选择特定的特征(如降雨、温度等)进行统计分析,例如使用Mann-Whitney U检验来比较雨天与非雨天地铁客流量的差异。此外,数据集还可以用于线性回归分析,通过梯度下降法预测客流量。最后,通过Matplotlib或ggplot等可视化工具,研究者可以绘制客流量随时间、天气条件的变化趋势图,进一步揭示数据中的潜在模式。
背景与挑战
背景概述
MTA New York City Subway数据集创建于2011年5月,主要研究人员通过分析纽约市地铁的每小时进出站数据,结合Weather Underground提供的天气数据,探讨了降雨对地铁乘客量的影响。该数据集的核心研究问题在于理解天气因素(如降雨、温度等)如何影响城市公共交通的使用模式。通过对地铁乘客量的统计分析,研究人员能够揭示天气变化对城市交通行为的潜在影响,为城市交通规划和政策制定提供了重要的数据支持。该数据集在交通研究领域具有广泛的影响力,尤其是在城市交通与天气关系的定量分析方面。
当前挑战
该数据集在解决领域问题时面临的主要挑战包括:1) 数据粒度不一致,地铁数据为每小时记录,而天气数据为每日记录,导致无法精确分析天气对地铁乘客量的实时影响;2) 数据分布的非正态性,使得传统的统计方法(如线性回归)难以有效拟合数据,限制了模型的预测能力。在构建数据集过程中,研究人员还面临数据整合的挑战,尤其是如何将不同来源的数据(地铁数据和天气数据)进行有效匹配,以确保分析的准确性和可靠性。此外,数据集的样本量有限,仅包含一个月的记录,可能无法全面反映季节性或长期趋势对地铁乘客量的影响。
常用场景
经典使用场景
MTA New York City Subway数据集常用于分析天气条件对地铁乘客量的影响。通过结合地铁闸机每小时进出站数据与天气数据,研究者能够深入探讨降雨、温度等气象因素如何影响乘客的出行选择。这种分析不仅揭示了天气与交通行为之间的关联,还为城市交通管理提供了数据支持。
衍生相关工作
基于MTA数据集,许多经典研究工作得以展开。例如,研究者开发了基于机器学习的客流预测模型,利用天气、时间和历史数据预测未来乘客量。此外,该数据集还催生了多项关于城市交通与气候变化的交叉研究,探讨了极端天气事件对公共交通系统的长期影响。
数据集最近研究
最新研究方向
近年来,MTA纽约市地铁数据集的研究方向主要集中在天气因素对地铁客流量的影响分析上。通过结合气象数据,研究者们深入探讨了降雨、温度等天气条件如何影响乘客的出行选择。特别是在极端天气事件频发的背景下,此类研究不仅为城市交通管理提供了科学依据,也为预测和应对未来气候变化对公共交通系统的影响奠定了基础。此外,随着大数据分析技术的进步,研究者们开始利用机器学习模型,如线性回归和梯度下降算法,来更精确地预测不同天气条件下的客流量变化,从而优化地铁运营策略。这些研究不仅提升了数据集的实用价值,也为城市规划和应急管理提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



