Aeolus
收藏arXiv2025-10-30 更新2025-11-01 收录
下载链接:
https://www.kaggle.com/datasets/flnny123/mfddmulti-modal-flight-delay-dataset/data
下载链接
链接失效反馈官方服务:
资源简介:
Aeolus是一个大规模的多模态航班延误数据集,旨在推进航班延误预测研究,并支持表格数据基础模型的开发。该数据集提供了三种对齐模式:包含超过5000万次航班丰富运营、气象和机场级别特征的表格数据集;建模延误传播的航班链模块,捕获上游和下游依赖关系;以及编码共享飞机、机组人员和机场资源连接的航班网络图,使跨航班关系推理成为可能。数据集经过精心构建,具有时间分割、全面特征和严格的泄露预防措施,以支持真实和可重复的机器学习评估。Aeolus支持广泛的应用,包括回归、分类、时间结构建模和图学习,作为表格、顺序和图模态的统一基准。我们的源代码和数据可以在 https://www.bts.gov/ 访问。
Aeolus is a large-scale multimodal flight delay dataset designed to advance flight delay prediction research and support the development of tabular data foundation models. This dataset offers three aligned modalities: a tabular dataset containing over 50 million flight records with rich operational, meteorological, and airport-level features; a flight chain module that models delay propagation and captures upstream and downstream dependencies; and a flight network graph that encodes connections of shared aircraft, crew, and airport resources, enabling cross-flight relational reasoning. The dataset is meticulously constructed with temporal splitting, comprehensive features, and strict leakage prevention measures to support realistic and reproducible machine learning evaluations. Aeolus supports a wide range of applications, including regression, classification, temporal structure modeling, and graph learning, serving as a unified benchmark for tabular, sequential, and graph modalities. Our source code and data are available at https://www.bts.gov/.
提供机构:
四川大学, 香港科技大学(广州)
创建时间:
2025-10-30
原始信息汇总
Aeolus:多模态航班延误数据集
数据集概述
Aeolus是一个多模态航班延误数据集,旨在推进航班延误预测研究,并支持表格数据基础模型的开发。
数据来源
- 原始数据来自美国运输部运输统计局
- 包含超过5000万条航班记录
数据特征
数据类型
- 运营数据
- 气象数据
- 机场级属性
多模态结构
- 表格数据:基础航班信息
- 时序数据:航班链模块,捕捉延误传播的时空动态
- 图数据:航班网络图,支持不同航班间的关系推理
技术特点
- 采用时间分割
- 包含全面特征
- 严格防止数据泄露
- 支持机器学习的现实性和可重复性评估
支持任务
- 回归分析
- 分类任务
- 时序结构建模
- 图学习
数据集结构
目录组成
- Flight_Tab:9个文件
- Flight_chain:9个目录
- Flight_network:9个目录
技术规格
- 版本:4
- 大小:44.08 GB
- 文件数量:3318个文件
- 列数:306列
许可证与维护
- 许可证:Apache 2.0
- 更新频率:季度更新
资源链接
- 使用示例代码:https://github.com/Flnny/Delay-data/tree/main
- 特征列详细信息:https://github.com/Flnny/Delay-data/tree/main
标签分类
- 地球与自然
- 表格数据
- 时间序列分析
- 多模态
- 图数据
- 航空
搜集汇总
数据集介绍

构建方式
在航空运输系统日益复杂的背景下,Aeolus数据集通过多源数据融合技术构建而成。该数据集整合了美国运输统计局2016至2024年的航班运营数据与Meteostat气象观测资料,采用三重模态对齐架构:首先建立包含航班时刻、机场元数据和气象要素的表格化数据集;其次通过尾号追踪构建24小时内同一航空器的飞行链序列,捕捉延迟传播的时序依赖;最后基于共享机场资源生成飞行网络图,建模跨航班的空间关联。整个构建过程采用时间切片策略与防泄漏机制,确保数据的时间连续性与评估可靠性。
使用方法
针对航空预测研究的实际需求,Aeolus提供了系统化的应用框架。研究者可基于时序划分策略构建训练验证集,分别开展表格特征建模、序列模式学习与图结构分析三类核心任务。在表格模态中,22维特征支持通过FTTransformer等架构进行延迟时长回归;飞行链数据可通过LSTM类模型捕捉时序依赖;网络图结构则适合采用VGAE嵌入方法提取拓扑特征。数据集配套的基准实验规范了评估指标体系,包括MAE、AUC与CRPS等跨任务度量,确保不同模态研究的可比性与可复现性。
背景与挑战
背景概述
Aeolus数据集由四川大学与香港科技大学(广州)联合团队于2025年推出,旨在解决传统航班延误预测数据集的模态单一性问题。该数据集整合了2016至2024年间超过5400万条航班记录,通过融合表格数据、飞行链序列与航班网络图三重模态,首次实现了对延误传播时空动态的系统性建模。其创新性在于突破了传统平面表格结构的局限,为航空运输系统的多模态机器学习研究提供了统一基准,显著推动了结构化数据基础模型的发展。
当前挑战
在领域问题层面,航班延误预测需应对时空依赖性与多因素耦合的复杂性,包括由共享飞机、机组和机场资源引发的级联延误传播,以及气象条件与运营策略的动态交互。构建过程中面临三重挑战:多源异构数据的时空对齐需解决航班链与气象数据的精确匹配问题;跨模态信息融合需设计有效的图序列联合表示方法;数据泄露防控需建立严格的时间分割策略以避免未来信息泄漏,确保评估结果的可靠性。
常用场景
经典使用场景
在航空运输系统研究中,Aeolus数据集作为多模态飞行延误预测的基准平台,其经典应用场景集中于整合表格特征、时序飞行链与图结构网络,以捕捉延误传播的复杂时空动态。通过联合建模航班运行数据、气象条件及机场资源依赖关系,该数据集支持从静态特征分析到动态传播机制探索的全方位研究,为理解延误在航线网络中的级联效应提供了统一框架。
解决学术问题
Aeolus数据集有效解决了传统表格学习基准中普遍存在的时空分布漂移与模态单一性问题,填补了多结构数据建模的空白。其通过严格的时间划分与泄漏预防机制,克服了随机分割导致的信息泄露难题,同时支持回归、分类与不确定性估计等多任务评估,为研究真实工业场景中的分布外泛化与复杂依赖关系提供了可靠实验基础。
实际应用
该数据集的实际价值体现在航空运营管理的多个层面:航空公司可基于其多模态预测模型优化飞机周转计划与机组调度,机场管理机构能借助图网络分析识别关键拥堵节点以提升资源分配效率。此外,空中交通控制系统可通过时序链模型预判延误传播路径,从而实施主动流量干预,降低由连锁延误引发的经济损耗与碳排放。
数据集最近研究
最新研究方向
在航空运输系统智能化研究领域,Aeolus数据集正推动多模态结构化数据建模的前沿探索。该数据集通过整合表格特征、飞行链序列和航班网络图三大对齐模态,突破了传统平面表格数据的局限,为研究航班延误的时空传播机制提供了全新视角。当前研究热点聚焦于图神经网络与时序模型的融合架构,旨在捕捉共享机场资源引发的跨航班延误传播效应,同时探索基于变分图自编码器的拓扑嵌入方法对多跳延迟关系的建模能力。这一研究方向不仅提升了延误预测的准确性,更为工业级表格学习提供了具有时空演化特性的基准测试平台,对降低航空业经济损失和碳排放具有重要实践意义。
相关研究论文
- 1Aeolus: A Multi-structural Flight Delay Dataset四川大学, 香港科技大学(广州) · 2025年
以上内容由遇见数据集搜集并总结生成



