wwii-bombing-operations-eda
收藏Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/Danielolevsky92/wwii-bombing-operations-eda
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“WWII Aerial Bombing Operations - EDA”,来源于美国空军(USAF)并通过Kaggle获取。原始数据集包含178,281行和46列,经过清洗后保留113,139行和21列,大小为28.48 MB。数据集的主要研究问题是二战期间空中轰炸行动的强度如何随时间变化,以及哪些国家被轰炸最多。数据经过严格清洗,包括删除缺失值超过50%的列、移除无效坐标和高度值、解析任务日期为正确的日期时间格式,并提取年份和月份作为单独列。关键发现包括1944年是最活跃的轰炸年份,德国是被轰炸最多的国家,B24 Liberator和B17 Flying Fortress是最常用的飞机,以及1944年投下的炸弹数量超过之前所有年份的总和。数据集适用于表格分类任务和探索性数据分析(EDA),特别关注二战期间的空中轰炸行动。
创建时间:
2026-03-30
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: WWII Aerial Bombing Operations EDA
- 托管平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/Danielolevsky92/wwii-bombing-operations-eda
- 许可协议: cc0-1.0
- 任务类别: 表格分类
- 数据规模: 100K<n<1M
数据来源与规模
- 数据来源: 美国空军(USAF) - Kaggle
- 原始数据规模: 178,281 行,46 列
- 清洗后数据规模: 113,139 行,21 列
- 数据集大小: 28.48 MB
主要研究问题
第二次世界大战期间空中轰炸行动的强度如何随时间变化,以及哪些国家是被轰炸最多的目标?
文件构成
operations.csv- 原始数据集WWII_Bombing_EDA_Daniel_Olevsky.ipynb- 完整的探索性数据分析笔记本
数据清洗过程
- 删除了缺失值超过50%的27个列。
- 移除了包含不可能值的行(无效坐标、高度)。
- 将任务日期解析为正确的日期时间格式。
- 提取了年份和月份作为单独的列。
- 未发现重复行。
异常值处理
- 移除了高于100,000英尺的高度值(不可能)。
- 移除了超出有效范围的坐标(纬度-90/90,经度-180/180)。
- 移除了超过2,000吨的炸弹重量(不现实)。
- 保留了极端但现实的值,如大型飞机编队。
关键发现
1. 每年轰炸强度
1944年是最活跃的年份,有55,384次任务,恰逢盟军在欧洲的D日入侵。

2. 被轰炸最多的国家
德国是被轰炸最多的国家,有36,496次任务,是排名第二的意大利(15,445次)的两倍多。

3. 最常用的飞机
B24 Liberator(25,365次任务)和B17 Flying Fortress(23,801次任务)是盟军轰炸行动的骨干。

4. 每年投掷的炸弹
仅1944年就投掷了近200万吨炸弹,超过了之前所有年份的总和。

5. 相关性洞察
最强相关性:高爆炸药重量与总重量(0.93)。
年份与每次任务的炸弹载荷几乎没有相关性(0.03)——升级来自于更多的任务,而不是更大的任务。

研究问题与答案
Q1: 不同战区的轰炸强度是否有差异?
是的——欧洲战区(ETO)有55,299次任务,而太平洋战区(PTO)有30,375次,几乎是两倍。

Q2: 哪几个月任务最多?
春季月份——三月(13,948次)和四月(14,962次)——由于欧洲飞行天气更好,活动最多。

Q3: 随着战争进展,任务飞行高度是否增加?
是的——平均高度从1940年的6,740英尺增加到1944年的15,510英尺,反映了德国防空火力的增强。

Q4: 炸弹载荷的分布如何?
右偏分布——大多数任务携带的炸弹少于50吨(中位数17吨),少数大规模袭击将平均值拉高至30.4吨。

Q5: 最常见的目标类型是什么?
机场(27.3%)是最常见的已知目标,其次是城市区域(20%)和铁路编组站(7.2%)。

使用工具
- Python(Pandas, NumPy, Matplotlib, Seaborn)
- Google Colab
- Kaggle API
搜集汇总
数据集介绍

构建方式
该数据集源自美国空军的历史档案,经过系统化清洗与重构,形成了可供分析的规范化格式。原始数据包含178,281条记录与46个字段,通过剔除缺失率超过50%的27个字段,并移除坐标、海拔等不合理数值的异常记录,最终保留了113,139条有效数据与21个关键字段。数据清洗过程中,日期字段被解析为标准时间格式,并衍生出年份与月份等时间维度,为后续时序分析奠定了坚实基础。
特点
本数据集聚焦于第二次世界大战期间的空中轰炸行动,以多维视角呈现了作战强度、地理分布与装备使用等关键历史特征。数据揭示了1944年为轰炸行动最频繁的年度,对应盟军诺曼底登陆后的欧洲战场攻势;德国作为遭受轰炸最密集的国家,其任务量远超其他参战国。此外,数据集还囊括了机型使用频率、炸弹投掷总量、作战海拔变化等深层指标,并通过相关性分析指出任务数量而非单次载荷量是战争升级的主要驱动因素。
使用方法
研究者可利用该数据集进行历史军事行动的定量分析,例如通过时序图表考察轰炸强度的年度与月度波动,或结合地理坐标可视化主要攻击区域。在机器学习领域,该数据适用于分类任务,如基于机型、目标类型或作战剧院预测任务特征;亦可通过回归模型探索轰炸载荷与海拔、时间等因素的关联。数据已提供清洗后的CSV文件与完整的探索性分析笔记,支持直接导入Python生态中的Pandas、Matplotlib等工具进行深入挖掘与可视化呈现。
背景与挑战
背景概述
二战期间,空中轰炸作为战略军事行动的核心组成部分,深刻影响了战争进程与历史走向。wwii-bombing-operations-eda数据集由美国空军提供原始数据,经由Kaggle平台整理与发布,旨在系统记录盟军轰炸任务的详细作战信息。该数据集聚焦于探究轰炸强度随时间演变规律及主要受袭国家分布,为军事历史学、战略研究及数据科学领域提供了量化分析基础。通过清洗与整合,数据集涵盖了任务日期、机型、投弹量、目标类型及地理坐标等多维特征,成为研究二战空中作战模式、资源分配与战术效果的关键实证资料。
当前挑战
该数据集致力于解决历史军事行动分析中的复杂性问题,即如何从海量异构作战记录中提取可信模式,以揭示轰炸战略的动态演变与空间分布规律。构建过程中面临多重挑战:原始数据存在大量缺失值与异常记录,如无效坐标、不可能的海拔高度及不现实的投弹重量,需通过严格的数据清洗与异常值处理来保障信息可靠性;同时,历史记录的异构性与非结构化特征,要求对时间、地点及任务类型等字段进行标准化解析,以支持跨时空比较分析。此外,数据集的代表性局限,如侧重盟军视角且可能遗漏部分战场记录,也为全面还原历史全景带来了客观制约。
常用场景
经典使用场景
在历史学与军事研究领域,该数据集为分析第二次世界大战期间空中轰炸行动的时空演变提供了详实的量化基础。研究者通过探索性数据分析,能够揭示盟军轰炸策略的年度变化、地理分布特征及战术偏好。例如,通过可视化1944年轰炸任务激增与诺曼底登陆的关联,或对比欧洲与太平洋战区的作战强度,数据集为理解战争进程中的空中力量部署提供了实证支持。
衍生相关工作
围绕该数据集,已衍生出多项聚焦于二战空中作战的量化研究。经典工作包括基于任务时空分布的战区比较分析、结合气象数据评估轰炸效率的跨学科研究,以及利用机器学习方法预测任务特征的模型构建。这些研究不仅深化了对盟军轰炸战略的理解,也为历史数据科学领域提供了方法学范例,推动了军事历史研究向实证化、精细化方向发展。
数据集最近研究
最新研究方向
在军事历史与数据科学交叉领域,二战轰炸行动数据集的研究正从传统统计分析转向多学科融合的前沿探索。学者们借助机器学习技术,深入挖掘轰炸任务的空间分布与时间序列模式,以揭示战略决策的动态演变。当前热点聚焦于利用地理信息系统(GIS)可视化技术,重构轰炸路径与目标选择逻辑,并结合气候数据、地形特征等环境变量,评估作战效能与伦理影响。这类研究不仅为历史军事策略提供量化验证,也为现代冲突分析与人道主义干预机制构建了重要的数据参照框架。
以上内容由遇见数据集搜集并总结生成



