US_flight-delay-2024
收藏Hugging Face2026-04-18 更新2026-04-19 收录
下载链接:
https://huggingface.co/datasets/avihayamor/US_flight-delay-2024
下载链接
链接失效反馈官方服务:
资源简介:
US Flight Delay 2024 是一个关于美国航班延误的表格回归数据集,来源于Kaggle的2024年航班数据。数据集包含100,000个样本和35个特征列,目标变量为arr_delay(到达延误分钟数,正值表示延误,负值表示提前)。数据经过清洗,移除了取消航班、缺失值和极端异常值(延误时间低于-100或高于+300分钟)。关键发现包括:航班起飞延误与到达延误高度相关(0.90)、延误在一天中逐渐累积并在晚间达到高峰、佛罗里达机场平均延误最高。数据集适用于航班延误预测、航空运营分析等机器学习任务,包含航班时刻表、出发表现和运营指标等特征。
创建时间:
2026-04-17
原始信息汇总
数据集概述:U.S. Flight Delay Dataset — 2024
基本信息
- 数据集名称:U.S. Flight Delay Dataset — 2024
- 语言:英语
- 许可证:MIT
- 任务类别:表格回归
- 规模:100,000 行样本,35 列
- 标签:航空、航班、延误、机器学习
数据来源与目标
- 来源:Kaggle — Flight Data 2024
- 目标变量:
arr_delay(到达延误分钟数,正值为晚点,负值为提前) - 目标:基于计划时间、起飞表现和运营指标预测航班到达延误分钟数。
数据清洗
- 移除已取消的航班(
cancelled == 0),因其无到达时间。 - 移除
arr_delay值缺失的行。 - 移除极端异常值:延误低于 -100 分钟或高于 +300 分钟(少于 0.3% 的数据)。
- 未发现重复行。
关键发现
- 晚点起飞的航班通常晚点到达(相关性为 0.90)。
- 延误在一天中逐渐累积,并在傍晚时段达到峰值。
- 佛罗里达州的机场在样本中显示出最高的平均延误。
- 距离和飞行时间与延误几乎无关。
- 区域性和优质航空公司的平均表现更好。
目标变量详情
- 变量名:
arr_delay - 含义:代表航班计划到达时间与实际到达时间之间的分钟数差异。
- 正值:航班晚点到达。
- 负值:航班提前到达。
- 零值:航班准时到达。
- 任务类型:回归任务。
研究问题与洞察
Q1: 哪些航空公司的平均到达延误最高?
- 洞察:B6(JetBlue)和 NK(Spirit)的平均延误最高(约晚点 9-6 分钟)。YX(Republic Airways)、9E(Delta 旗下区域航空公司)和 DL(Delta)通常提前到达。预算和低成本航空公司往往比区域性航空公司更晚点。
Q2: 一天中的时间是否影响到达延误?
- 洞察:清晨航班(5-6 点)由于机场拥堵程度低,显著提前到达。延误在一天中逐渐累积,并在晚上 7 点左右达到峰值。这证实了延误会随着时间推移而累积。
Q3: 哪些出发机场的平均到达延误最高?
- 洞察:佛罗里达州的机场(MIA, MCO)最容易延误,可能由于大量旅游客流和频繁雷暴。MSP、BOS 和 ATL 的平均表现通常更好。
- 交互式地图链接:https://huggingface.co/spaces/avihayamor/flight-delay-map-2024
Q4: 数值特征与到达延误的相关性如何?
- 洞察:
dep_delay与arr_delay的相关性为 0.90,是最强的预测因子。carrier_delay(0.61)和late_aircraft_delay(0.63)也有显著贡献。distance和air_time与延误的相关性几乎为零。
文件列表
flight_data_2024_sample.csv— 100,000 个航班的清洗后样本。Assignment_1_EDA_&_Dataset_Avihay_Amor.ipynb— 完整的探索性数据分析笔记本。q1_airlines.png— 条形图:按航空公司划分的平均延误。q2_time_of_day.png— 条形图:按小时划分的平均延误。q3_map.html— 交互式地图:按出发机场划分的延误。q4_heatmap.png— 相关性热图。Data_Science_Vid.MP4— 演示视频。
作者信息
- 姓名:Avihay Amor
- 背景:经济学与创业学士
- 机构:Reichman University
- 年份:2026
搜集汇总
数据集介绍

构建方式
在航空运输领域,精准预测航班延误对优化运营效率至关重要。US_flight-delay-2024数据集源自Kaggle平台的2024年航班原始数据,经过系统化清洗与采样构建而成。构建过程中,首先剔除了已取消航班及到达延误值缺失的样本,以保障数据完整性;随后基于统计分布移除了极端异常值,即延误时间低于负100分钟或超过正300分钟的记录,此类数据占比不足千分之三。最终数据集包含十万行样本及三十五个特征变量,目标变量为以分钟为单位的到达延误时间,适用于回归分析任务。
特点
该数据集在航空延误预测研究中展现出多维度特点。其核心特征体现在变量间的高度相关性,例如出发延误与到达延误的相关系数高达0.90,揭示了航班延误传递的内在规律。时空分布特征显著,数据显示延误现象随当日时刻推移呈现累积效应,晚间时段达到峰值;地理维度上,佛罗里达州机场因旅游流量与气候因素成为延误高发区域。值得注意的是,飞行距离与空中时长与延误程度几乎无统计关联,这颠覆了传统认知,为延误成因分析提供了新的视角。
使用方法
针对机器学习建模需求,该数据集可直接应用于回归预测任务。使用者可基于出发时间、承运商信息、机场代码等三十五列特征构建预测模型,以到达延误分钟数为目标变量进行训练。建议优先采用出发延误、承运商延误及航空器延误等强相关特征作为模型输入。数据集配套提供完整探索性分析笔记与可视化图表,包括航空公司延误对比、时段分布热力图及机场延误交互地图,这些资源能有效辅助特征工程与模型解释。对于学术研究,该数据可用于验证延误传播理论或评估不同航空公司的运营效率。
背景与挑战
背景概述
航空运输作为现代社会经济活动的重要支柱,其准点率直接关系到旅客出行体验与物流效率。美国航班延误数据集(US Flight Delay 2024)由Avihay Amor基于Kaggle平台发布的2024年航班数据构建而成,旨在通过机器学习方法预测航班抵达延误时间。该数据集聚焦于航班延误的核心研究问题,即如何利用航班计划时间、离港表现及运营指标等35个特征,对抵达延误分钟数进行回归预测。其创建不仅为航空运营优化提供了量化分析基础,也为交通数据科学领域引入了时效性强的实证研究资源,对提升航班调度智能性具有显著影响力。
当前挑战
航班延误预测本质上是一个复杂的时空回归问题,其挑战在于延误成因的多维性与动态性。例如,天气突变、空中交通管制、机场拥堵及航班连锁反应等因素相互交织,使得单一特征难以全面捕捉延误模式。在数据集构建过程中,研究者需应对原始数据中的噪声与缺失值,如剔除已取消航班及极端异常值,同时保持数据分布的代表性。此外,特征间的高度相关性(如离港延误与抵达延误相关系数达0.90)可能引发多重共线性,增加模型解释难度,而时空异质性(如佛罗里达机场延误偏高)要求预测模型具备良好的泛化能力。
常用场景
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于机器学习的延误预测算法比较、航空网络延误传播的图模型分析,以及结合气象数据的多源融合预测框架。这些工作不仅推动了航空数据科学的发展,还为智能交通系统中的实时决策支持系统提供了方法论借鉴,促进了跨领域研究的融合与创新。
数据集最近研究
最新研究方向
在航空运输领域,航班延误预测一直是提升运营效率与乘客体验的核心议题。基于US_flight-delay-2024数据集,当前研究聚焦于利用机器学习模型精准量化延误的时空传播机制。前沿探索深入分析延误的级联效应,特别是傍晚高峰时段的累积现象,并结合气象数据与实时交通流量,构建动态预测系统。热点方向包括集成图神经网络以建模机场网络间的延误扩散,以及应用可解释AI技术解析承运商策略与区域因素(如佛罗里达机场的高延误倾向)的影响。这些进展不仅优化了航班调度与资源配置,也为航空业的韧性管理提供了数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成



