Aeolus
收藏arXiv2025-10-31 更新2025-11-04 收录
下载链接:
https://www.bts.gov/ https://meteostat.net/en/
下载链接
链接失效反馈官方服务:
资源简介:
Aeolus是一个大规模的多模态航班延误数据集,旨在推进航班延误预测研究,并支持表格数据基础模型的发展。该数据集提供了三种对齐的模态:(i)一个表格数据集,包含超过5000万次航班的丰富操作、气象和机场级别的特征;(ii)一个航班链模块,通过链接连续的航班环节来模拟延误传播,捕捉上游和下游的依赖关系;(iii)一个航班网络图,编码共享的飞机、机组人员和机场资源连接,使跨航班关系推理成为可能。数据集经过精心构建,具有时间划分、综合特征和严格的泄露预防,以支持现实和可重复的机器学习评估。Aeolus支持广泛的任务,包括回归、分类、时间结构建模和图学习,作为表格、序列和图模态的统一基准。我们发布了基线实验和预处理工具,以促进采用。Aeolus填补了特定领域建模和通用结构化数据研究的关键差距。
Aeolus is a large-scale multimodal flight delay dataset designed to advance flight delay prediction research and support the development of tabular data foundation models. This dataset provides three aligned modalities: (i) a tabular dataset containing rich operational, meteorological, and airport-level features for over 50 million flights; (ii) a flight chain module that simulates delay propagation by linking consecutive flight segments to capture upstream and downstream dependencies; (iii) a flight network graph that encodes shared aircraft, crew, and airport resource connections to enable cross-flight relational reasoning. The dataset is meticulously constructed with temporal partitioning, comprehensive features, and strict leakage prevention to support realistic and reproducible machine learning evaluations. Aeolus supports a wide range of tasks, including regression, classification, temporal structure modeling, and graph learning, serving as a unified benchmark for tabular, sequential, and graph modalities. We have released baseline experiments and preprocessing tools to facilitate adoption. Aeolus fills a critical gap in both domain-specific modeling and general structured data research.
提供机构:
四川大学, 香港科技大学(广州)
创建时间:
2025-10-30
搜集汇总
数据集介绍

构建方式
在航空运输系统复杂性日益凸显的背景下,Aeolus数据集通过多源数据融合技术构建而成。该数据集整合了美国运输统计局2016至2024年的航班运营数据与Meteostat气象观测数据,采用时序对齐与异常值处理机制,最终形成涵盖5467万条航班记录的多模态基准。其创新性地构建了三种对齐模态:表格数据包含22维航班运营与气象特征;飞行链模块通过尾号匹配建立24小时内飞机执飞序列,捕捉延迟传播的时序依赖;飞行网络图则编码共享机场资源与空域约束,实现跨航班关系推理。
特点
作为航空延误预测领域的重要突破,Aeolus展现出三大核心特征。其多模态架构同步提供表格、时序与图结构数据,完整呈现延误传播的时空动态特性。数据集覆盖全球320个机场九年间运营轨迹,包含极端天气事件与COVID-19等特殊时期的延误模式,为研究分布偏移提供真实场景。特征工程方面,除基础航班信息外,更融入起降地温度、降水、风速等14个连续变量与8个类别变量,通过严格的泄漏预防机制确保评估可靠性。
使用方法
针对航空运营管理的实际需求,Aeolus支持多维度的机器学习任务。研究者可采用时序分割策略(6:2:2)划分训练验证测试集,分别开展延误回归预测、二分类识别与不确定性量化任务。表格模态适配FT-Transformer等深度网络架构,飞行链数据适合LSTM等序列模型建模时序传播,网络图结构则可结合VGAE图嵌入技术提升预测精度。数据集提供标准化评估协议与基线实验,支持跨模态联合训练与消融研究,为航空决策系统开发提供全面基准。
背景与挑战
背景概述
航空延误预测作为智能交通系统的关键研究领域,其数据集的构建直接影响机器学习模型的泛化能力。Aeolus数据集由四川大学与香港科技大学(广州)联合团队于2025年发布,旨在解决传统表格数据在时空动态建模上的局限性。该数据集整合了2016至2024年间超过5400万条航班记录,涵盖运营数据、气象要素及机场资源等多维度特征,通过表格模态、航班链序列与航班网络图的三重对齐结构,首次实现了延误传播的时空关联建模。其创新性的多模态架构不仅推动了航空延误预测领域的发展,更为通用表格学习提供了具有工业级复杂度的基准测试平台。
当前挑战
在领域问题层面,航空延误预测需应对三类核心挑战:时空动态性建模要求同时捕捉机场网络的空间依赖与航班序列的时间传播;多模态融合需协调表格特征、序列链与图结构的异构表征;外部扰动如COVID-19导致的分布漂移要求模型具备强鲁棒性。在构建过程中,数据整合面临原始航班记录与气象数据的时空对齐难题,航班链生成需解决跨日航班序列的连续性维护,而网络图构建则涉及共享资源(如停机位、空域)的复杂关系抽取。此外,严格防止时序信息泄漏与保持多任务评估协议的一致性,亦是保障基准可靠性的关键挑战。
常用场景
经典使用场景
在航空运输系统优化研究中,Aeolus数据集最经典的使用场景体现在多模态航班延误预测模型的构建与验证。该数据集通过整合表格特征、飞行链序列和航班网络图三种对齐模态,为研究者提供了全面分析延误传播机制的实验平台。在具体应用中,研究人员能够同时考察静态运营特征、同一飞机连续航班的时序依赖关系以及跨飞机的资源共享效应,从而深入揭示延误在时空维度上的级联规律。
衍生相关工作
基于Aeolus数据集的多模态特性,已衍生出多个具有影响力的研究方向。在表格学习领域,FT-Transformer等模型通过注意力机制挖掘特征交互,在延误回归任务中展现出卓越性能;时序建模方面,MogrifierLSTM等架构利用飞行链结构有效捕捉了延误在飞机运营序列中的传播模式;图神经网络应用则通过VGAE等嵌入方法揭示了航班网络中的拓扑关联,为跨飞机延误传播建模提供了新范式。这些工作共同推动了结构化数据学习与领域知识的深度融合。
数据集最近研究
最新研究方向
在航空运输系统智能化研究领域,Aeolus数据集通过融合表格、时序与图结构的多模态特性,为航班延误预测研究开辟了全新范式。当前前沿探索聚焦于跨模态联合建模,利用飞行链模块解析同一航空器在连续航段间的延误传播机制,同时通过飞行网络图捕捉共享机场资源引发的跨航班级联效应。研究热点体现在时空分布偏移的鲁棒性学习,尤其在COVID-19等外生冲击下验证模型对非平稳延迟模式的泛化能力。该数据集通过严格时序划分与多任务评估协议,显著提升了工业级表格学习系统的可复现性,为构建兼顾动态依赖与资源约束的航空决策系统提供了关键基准。
相关研究论文
- 1Aeolus: A Multi-structural Flight Delay Dataset四川大学, 香港科技大学(广州) · 2025年
以上内容由遇见数据集搜集并总结生成



