five

flightCrashData2025|航空安全数据集|数据分析数据集

收藏
github2025-12-17 更新2025-12-19 收录
下载链接:
https://github.com/Amineharrabi/flightCrashData2025
下载链接
链接失效反馈
资源简介:
一个全面的多源航空事故数据管道,聚合了来自多个权威来源(航空安全网络和NTSB)的飞行事故信息到一个统一的数据仓库。该仓库提供了工具来抓取、处理和分析航空事故数据,用于研究、分析和报告目的。
创建时间:
2025-12-05
原始信息汇总

飞行事故数据集概述

数据集基本信息

  • 数据集名称: Flight Crash Data Repository
  • 数据集地址: https://github.com/Amineharrabi/flightCrashData2025
  • 数据覆盖时间: 2010年至2025年(持续更新)
  • 最后更新: 2025年12月

数据来源

数据集整合了三个权威来源的航空事故数据:

  1. 航空安全网 (Aviation Safety Network, ASN)
    • 来源网站: https://aviation-safety.net
    • 获取方式: 网络爬虫抓取
    • 数据内容: 包含完整事故摘要及完整报告链接
  2. 美国国家运输安全委员会 (National Transportation Safety Board, NTSB)
    • 来源网站: https://data.ntsb.gov
    • 获取方式: 基于API提取
    • 数据内容: 详细的事故调查报告和案件信息
  3. CSV数据
    • 来源: 结构化CSV文件
    • 用途: 补充事故信息和历史数据

数据集内容与结构

数据集提供了一个完整的ETL(提取、转换、加载)管道,将数据组织成星型模式数据仓库。

数据仓库表结构

维度表

  • dim_date: 事故日期维度,包含完整日期、年、季度、月、日等字段。
  • dim_time: 事故时间维度,包含时间值、小时、分钟、秒等字段。
  • dim_location: 地理位置维度,包含国家、州/省、城市、机场代码、机场名称、经纬度等字段。
  • dim_aircraft: 航空器维度,包含机型名称、制造商、型号、注册号、序列号、发动机数量等字段。
  • dim_operator: 运营商维度,包含运营商名称、运营商类型、所有者名称、飞行运营类型等字段。

事实表

  • fact_accidents: 核心事实表,包含所有事故记录。
    • 航班信息: 航班号、出发航线、目的地航线。
    • 伤亡指标: 总人数、总死亡人数、机组死亡人数、乘客死亡人数、地面死亡人数。
    • 数据源追踪: 数据来源、源唯一标识。

暂存表

用于数据摄取的中间表:

  • stg_source1_aviation_safety: ASN原始数据。
  • stg_source2_ntsb: NTSB原始数据。
  • stg_source3_csv: CSV数据。

存储文件结构

flightCrashData/ ├── ASN_scraping/ # 航空安全网络爬虫 │ ├── scraper.py # 主ASN网络爬虫脚本 │ ├── aviation_accidents_YYYY.json # 按年份的事故数据文件 │ ├── merged_all_accidents.json # 合并的原始数据 │ ├── merged_all_accidents_cleaned.json # 清理/去重后的数据 │ ├── proxies.txt # 代理配置(可选) │ └── scraper_progress.json # 用于中断后恢复的进度文件 ├── NTSB_scraping/ # NTSB数据提取 │ ├── script.py # 主NTSB爬虫脚本 │ ├── merge_extracted_json.py # JSON合并工具 │ ├── unzip_with_rename.py # 归档提取工具 │ └── ntsb_data/ │ ├── extracted/ # 月度案件文件和元数据 │ └── readme.txt # NTSB特定文档 └── TL/ # 转换与加载 (ETL) ├── commands.sql # 数据库模式和ETL SQL ├── load_staging.py # 加载暂存表的Python脚本 ├── ASN.json # 处理后的ASN数据 ├── NTSB.json # 处理后的NTSB数据 ├── CSV.csv # CSV源数据 └── README.md # ETL特定文档

技术栈与依赖

  • 数据提取: Python (requests, curl_cffi, BeautifulSoup)
  • 数据存储: PostgreSQL 12+
  • 数据格式: JSON, CSV, JSONB (PostgreSQL)
  • 系统要求: Windows, macOS, 或 Linux;Python 3.8 或更高版本。

使用方式

快速开始

  1. 初始化数据库: 运行 TL/commands.sql 脚本创建完整模式。
  2. 加载数据: 运行 TL/load_staging.py 将JSON文件加载到PostgreSQL暂存表。
  3. 查询数据: 连接至 FlightAccidentMain 数据库执行分析查询。

数据收集(可选)

  • ASN爬虫: 运行 ASN_scraping/scraper.py 抓取2010-2025年数据,支持延迟、代理和断点续传。
  • NTSB爬虫: 运行 NTSB_scraping/script.py 通过API提取月度事故数据。

示例查询

数据集支持复杂的分析查询,例如:

  • 按年份统计事故数量和总死亡人数。
  • 查询事故次数最多的前10种航空器类型及其平均死亡人数。
  • 统计过去5年各国的事故数量和死亡人数。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在航空安全研究领域,flightCrashData2025数据集通过一个精心设计的ETL(提取、转换、加载)流程构建而成。该流程整合了来自航空安全网络(ASN)的网页抓取数据、美国国家运输安全委员会(NTSB)的API提取数据以及补充的CSV结构化数据。数据采集过程采用了模拟人类浏览行为的延迟策略与浏览器指纹技术,以确保抓取的稳健性与对数据源的尊重。随后,原始数据经过清洗与去重处理,并加载至采用星型模式设计的PostgreSQL数据仓库中,其中包含日期、时间、地点、航空器及运营商等多个维度表,为核心的事故事实表提供支持。
使用方法
对于希望利用该数据集的研究者而言,使用方法清晰而系统。首先,需按照指南初始化PostgreSQL数据库并执行提供的SQL脚本以构建完整的数据库模式。数据集本身已包含预处理好的JSON与CSV文件,用户可直接运行附带的Python脚本将数据加载至对应的暂存表中。随后,通过执行ETL流程,数据将被转换并填充至维度表与事实表。完成加载后,用户便可使用标准SQL查询语言,基于维度表对事实表中的事故记录进行复杂的统计分析、趋势探究或安全评估,例如按年份统计事故数量或分析特定机型的事故率。
背景与挑战
背景概述
航空安全数据分析领域长期面临多源异构数据整合的难题,flightCrashData2025数据集应运而生,旨在构建一个覆盖2010至2025年航空事故的统一数据仓库。该数据集由开源社区开发者于2025年创建,通过集成航空安全网络(ASN)与国家运输安全委员会(NTSB)等权威数据源,采用星型架构数据仓库模型,系统化地组织时间、地点、航空器及运营商等多维信息。其核心研究问题聚焦于如何实现跨平台事故数据的标准化融合与深度分析,为航空安全趋势预测、风险因素识别及政策制定提供高质量的数据基础,显著提升了该领域研究的可重复性与分析效率。
当前挑战
该数据集致力于解决航空事故多源数据融合与深度分析的挑战,具体体现在数据异构性整合、时空信息对齐以及伤亡统计标准化等复杂问题。在构建过程中,研发团队面临多重技术障碍:首先,从ASN与NTSB等动态网站进行大规模数据爬取时,需设计抗反爬机制与断点续传策略以保障数据完整性;其次,不同数据源在事故记录编码、时间格式及地理位置描述上存在显著差异,需要进行复杂的清洗、去重与实体匹配;此外,构建星型架构数据仓库时,维度表与事实表的关系建模以及ETL流程的可靠性优化亦是关键难点。
常用场景
经典使用场景
在航空安全研究领域,flightCrashData2025数据集常被用于构建多维度的历史事故分析模型。研究者通过其星型架构的数据仓库,能够高效地关联时间、地点、飞机型号及运营商等维度信息,从而深入探究事故发生的时空分布规律与潜在风险因素。这一数据集支持复杂的联机分析处理查询,为识别高风险航线、评估机型安全性能提供了坚实的数据基础。
解决学术问题
该数据集有效解决了航空安全研究中数据分散与整合困难的学术挑战。通过聚合航空安全网络与国家运输安全委员会等多源权威数据,它提供了统一、清洗且去重的事故记录,使得学者能够系统性地分析事故成因、评估安全政策效果,并验证安全预测模型的准确性。其意义在于推动了数据驱动的航空安全科学研究,为制定更精准的安全干预措施提供了实证依据。
实际应用
在实际应用中,flightCrashData2025数据集被航空公司、监管机构及保险行业广泛采纳,用于进行安全风险评估与运营决策支持。例如,航空公司可依据历史事故数据优化航线规划与机队管理;监管机构则能利用其监测安全趋势,辅助事故调查与法规制定;保险业则可据此精算航空保险保费,评估承保风险。这些应用直接提升了航空系统的整体安全性与运营效率。
数据集最近研究
最新研究方向
在航空安全领域,flightCrashData2025数据集以其多源聚合的星型架构数据仓库,正推动着航空事故预测与安全风险评估的前沿研究。该数据集整合了航空安全网络与NTSB等权威数据源,为机器学习模型提供了高质量的训练基础。当前研究热点聚焦于利用时序分析与空间建模技术,揭示事故发生的潜在模式与地域性规律,进而辅助智能预警系统的开发。随着全球航空业对安全性能要求的不断提升,该数据集在促进数据驱动的安全政策制定与运营优化方面展现出深远意义,为构建下一代航空安全生态系统奠定了坚实的数据基石。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作