PRC Data Challenge - Actual TakeOff Weight (ATOW) Prediction
收藏github2024-10-27 更新2024-10-28 收录
下载链接:
https://github.com/euranova/aviation-data-challenge-2024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2022年欧洲369,013次航班的详细信息,包括起飞/到达机场、飞机类型、离场和到达时间以及估计的起飞重量。此外,通过与OpenSky Network的合作,还提供了相应的飞行轨迹,采样频率最高为1秒,总计约158 GiB的parquet文件。
This dataset contains detailed information on 369,013 flights operating in Europe in 2022, including departure and arrival airports, aircraft type, departure and arrival times, and estimated takeoff weight. In addition, in collaboration with the OpenSky Network, corresponding flight trajectories are provided with a maximum sampling frequency of 1 second, totaling approximately 158 GiB of Parquet files.
创建时间:
2024-10-24
原始信息汇总
PRC Data Challenge - Actual TakeOff Weight (ATOW) Prediction
概述
Performance Review Commission (PRC) Data Challenge 旨在吸引数据科学家,即使没有航空背景,也能创建团队并参与构建开放的机器学习(ML)模型。挑战的目标是准确推断2022年欧洲航班的实际起飞重量(ATOW)。
数据集
-
航班列表:包含2022年欧洲的369,013次航班的详细信息,包括:
- 航班识别:唯一ID (
flight_id),混淆呼号 (callsign) - 起降机场:出发机场 (
adep),目的地机场 (ades) [ICAO代码] - 机场名称 (
name_adep,name_ades) - 国家代码 (
country_code_adep,country_code_ades) [ISO2C] - 航班日期 (
date) [ISO 8601 UTC] - 实际离场时间 (
actual_offblock_time) [ISO 8601 UTC] - 到达时间 (
arrival_time) [ISO 8601 UTC] - 飞机类型代码 (
aircraft_type) [ICAO飞机类型] - 尾流涡流类别 (
wtc) - 混淆的航空公司代码 (
airline) - 航班持续时间 (
flight_duration) [分钟] - 滑行时间 (
taxiout_time) [分钟] - 航线长度 (
flown_distance) [海里] - 估计起飞重量 (
tow) [千克]
- 航班识别:唯一ID (
-
轨迹数据:提供约158 GiB的每日
.parquet文件,包含每秒采样的ADS-B位置报告。每个轨迹文件包含:- 航班识别:唯一ID (
flight_id),ICAO 24位地址 (icao24) - 4D位置:经度、纬度、高度和时间戳
- 速度:地面速度 (
groundspeed),航迹角 (track,track_unwrapped),垂直爬升/下降率 (vertical_rate) - 气象信息(可选):风速 (
u_component_of_wind,v_component_of_wind) [m/s],温度 [开尔文]
- 航班识别:唯一ID (
评估数据集
- submission_set.csv:包含105,959次航班,用于中间提交排名。
- 额外52,190次航班用于最终排名和奖项评估。
附加数据集
- 全球机场数据库 (GADB):包含9300个机场的详细信息,包括ICAO代码、IATA代码、名称、国家、城市、经纬度位置和海拔。
- CADO飞机数据库:包含近230架飞机的数据,每架飞机由31个参数描述,如名称、IATA代码、类别、几何形状、质量、最大速度、典型巡航马赫数、典型航程、典型进近速度、起飞跑道长度、着陆跑道长度、发动机数量、发动机类型、典型发动机型号、旁通比、最大推力或最大功率。
模型
使用XGBoost模型进行ATOW预测,该模型能够处理复杂、非线性的关系,并有效管理分类和连续变量。
许可证
本项目基于GNU General Public License v3.0。
搜集汇总
数据集介绍

构建方式
该数据集由Performance Review Commission (PRC)与OpenSky Network (OSN)合作构建,旨在通过提供详细的飞行信息和相应的飞行轨迹数据,支持对2022年欧洲航班实际起飞重量(ATOW)的预测。数据集包含369,013次航班的详细信息,包括起飞和到达机场、飞机类型、离场和到达时间以及估计的起飞重量(ETOW)。此外,通过OSN提供的飞行轨迹数据,以1秒的采样粒度记录了大部分航班的ADS-B位置报告,总计约158 GiB的parquet文件。
使用方法
使用该数据集进行实际起飞重量预测时,首先需要通过Poetry管理项目依赖和虚拟环境,确保项目环境的一致性。接着,用户可以根据提供的脚本进行数据准备、特征工程和模型训练。数据集提供了两种特征提取方法:通用特征提取和爬升与起飞阶段特征提取,用户可以根据需求选择合适的方法。模型训练过程中,推荐使用XGBoost算法,并通过Optuna进行超参数优化,以提高预测精度。最终,用户可以将训练好的模型提交至挑战平台进行评估。
背景与挑战
背景概述
PRC Data Challenge - Actual TakeOff Weight (ATOW) Prediction数据集由Performance Review Commission (PRC)发起,旨在通过开放的机器学习模型竞赛,吸引数据科学家参与,即使他们没有航空背景。该数据集的核心研究问题是如何准确推断2022年欧洲航班的实际起飞重量(ATOW)。数据集包含了369,013次航班的详细信息,包括起降机场、飞机类型、离场和到达时间以及预计起飞重量(ETOW)。通过与OpenSky Network (OSN)的合作,还提供了相应的飞行轨迹数据,这些数据以每秒一次的粒度进行采样,总计约158 GiB的parquet文件。该数据集的创建旨在推动航空领域的数据科学应用,特别是提升航班实际起飞重量的预测精度,对航空安全和效率具有重要影响。
当前挑战
该数据集面临的挑战主要集中在两个方面:一是解决实际起飞重量预测的复杂性,这涉及到处理大量动态和静态变量,如飞机类型、天气条件和飞行参数之间的非线性关系;二是数据集构建过程中遇到的挑战,包括处理不完整和噪声数据,特别是飞行轨迹数据中的缺失部分。此外,数据集的评估使用了两个不同的数据集,分别用于中间提交和最终排名,这要求模型在不同数据集上具有一致的预测性能。最后,由于数据集中飞机类型的分布不均,模型需要有效处理类别不平衡问题,以提高预测的准确性和鲁棒性。
常用场景
经典使用场景
在航空领域,准确预测实际起飞重量(ATOW)对于优化飞行操作和燃油效率至关重要。该数据集通过提供详细的飞行信息和轨迹数据,使得数据科学家能够构建机器学习模型,以精确推断2022年欧洲航班的实际起飞重量。经典的使用场景包括利用这些数据进行特征工程,提取如起飞和爬升阶段的统计特征,进而训练XGBoost模型以预测ATOW。
解决学术问题
该数据集解决了航空领域中关于飞行重量预测的常见学术研究问题。通过提供高精度的飞行轨迹和相关操作数据,研究者能够探索和验证各种机器学习算法在非线性关系处理上的能力。这不仅提升了模型预测的准确性,还为航空数据分析提供了新的研究方向和方法论。
实际应用
在实际应用中,准确预测ATOW有助于航空公司优化燃油消耗、减少碳排放,并提高运营效率。此外,该数据集还可用于开发智能飞行管理系统,通过实时数据分析和预测,提供更精确的飞行计划和决策支持。这些应用不仅提升了航空安全,还显著降低了运营成本。
数据集最近研究
最新研究方向
在航空数据分析领域,PRC Data Challenge - Actual TakeOff Weight (ATOW) Prediction数据集的最新研究方向聚焦于利用先进的机器学习技术,特别是XGBoost模型,来精确预测飞机的实际起飞重量(ATOW)。这一研究不仅涉及基础的特征工程,如从飞行轨迹数据中提取统计特征,还包括对起飞和爬升阶段的细分分析,以捕捉与ATOW密切相关的动态变化。此外,研究者们正在探索如何通过处理数据不平衡问题,如针对不同飞机类型的分类建模,来进一步提升预测模型的性能。这些研究不仅有助于提高航空运营的效率和安全性,还为未来在复杂环境下的飞行数据分析提供了新的方法和工具。
以上内容由遇见数据集搜集并总结生成



