GeoNuclearData

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/jonblustein/GeoNuclearData

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于Kaggle的Geo Nuclear Data数据集，包含全球核反应堆的地理和技术特征信息，如国家、电厂名称、经纬度、反应堆类型、容量、状态及建设和运营日期等。原始数据经过清洗和过滤，仅保留两种反应堆类型：压水堆（PWR）和沸水堆（BWR）。清洗后的数据集包含573条记录，其中PWR反应堆483个，BWR反应堆120个，存在明显的类别不平衡。数据集适用于核反应堆类型预测任务，探索性分析表明容量是最具信息量的特征，地理位置和国家也提供有用信息。数据集还包含建模过程的详细信息，测试了多种模型，其中随机森林表现最佳。

创建时间：

2026-03-29

原始信息汇总

数据集概述

基本信息

数据集名称: GeoNuclearData
来源: 基于Kaggle的Geo Nuclear Data数据集
许可证: odbl
语言: 英语 (en)
标签: chemistry, nuclear, geo
数据规模: 1K < n < 10K
数据文件: nuclear_power_plants_dataset_cleaned_and_sorted.csv (训练集)

数据集内容

该数据集包含全球核反应堆的信息，重点关注两种反应堆类型：PWR（压水反应堆）和BWR（沸水反应堆）。经过清洗和筛选后，最终数据集包含573行数据。

主要特征

地理特征: 国家、植物名称、纬度、经度
技术特征: 反应堆类型、容量、状态、建造日期和运营日期

数据分布（类别不平衡）

PWR: 483个反应堆
BWR: 120个反应堆

研究问题

核心研究问题：能否预测一个反应堆是PWR还是BWR？

探索性数据分析发现

1. 容量差异

PWR反应堆的平均和中位容量均高于BWR反应堆。

2. 地理分布

核反应堆高度集中在海岸线附近。
PWR和BWR反应堆的地理分布存在差异，但并非完全分离。
可见两个主要地理区块：一个围绕美国，另一个围绕俄罗斯/中国。

3. 国家分布

美国和中国的反应堆数量最多，其次是日本和法国等国。
不同国家中PWR和BWR反应堆的分布并不相同。

4. 全球总容量

在该数据集中，PWR反应堆贡献的全球总容量远高于BWR反应堆。

主要洞察

容量是数据集中信息量最大的特征。
地理位置有用，但单独作用不够强。
没有一个单一特征能完美区分PWR和BWR反应堆。
分类任务似乎依赖于多个特征的组合。

建模

目标变量

ReactorType（反应堆类型）
- 0 = BWR
- 1 = PWR

特征工程与选择

数值特征

Capacity（容量）
Latitude（纬度）
Longitude（经度）
AbsLatitude（绝对纬度）
ConstructionYear（建造年份）
OperationalYear（运营年份）
YearsToOperation（至运营年份）
ReactorAge（反应堆年龄）

分类特征

Status（状态）
Country（国家）
CountryCode（国家代码）

测试模型

逻辑回归
平衡逻辑回归
随机森林
梯度提升

模型结果

最佳模型：随机森林

准确率: 0.8957
宏平均F1分数: 0.8467
BWR召回率: 0.7917
PWR召回率: 0.9231

局限性

部分有用变量原始数据存在缺失值。
数据集不平衡，PWR反应堆远多于BWR反应堆。
仅凭地理坐标无法清晰区分两种反应堆类型。
可能存在一些有趣的地理或政治模式，但需要超出此数据集的进一步研究。

最终结论

该项目表明，可以以良好的性能预测核反应堆是PWR还是BWR。探索性分析显示，容量是最强的单一特征，而地理位置和国家也提供了有用信息。然而，没有一个单一特征能完美区分这两个类别。在所有测试模型中，随机森林给出了最佳结果，并被选为最终模型。

使用示例

python from datasets import load_dataset

dataset = load_dataset("jonblustein/GeoNuclearData") df = dataset["train"].to_pandas() print(df.head())

搜集汇总

数据集介绍

构建方式

该数据集源自Kaggle平台的Geo Nuclear Data原始资料，经过系统性的清洗与筛选处理。构建过程中，研究者聚焦于压水堆与沸水堆两类主流反应堆类型，剔除了其他反应堆数据以保持研究目标的明确性。针对关键字段如容量、地理坐标等存在的缺失值，采用了中位数填充等统计方法进行补全，同时移除了坐标信息不全的样本，确保数据质量与地理分析的可行性。最终形成的结构化数据集包含573条有效记录，为后续的机器学习建模奠定了可靠的数据基础。

特点

本数据集的核心特征体现在其多维度的核反应堆属性记录上，不仅涵盖了反应堆类型、容量、状态等关键技术参数，还包含了国家、经纬度坐标及建设运行年份等地理与时间维度信息。数据呈现出明显的类别不平衡特性，其中压水堆样本数量显著多于沸水堆，这一分布特性可能对分类模型的性能产生影响。此外，容量特征被证实具有较高的预测区分度，而地理坐标虽能反映一定的区域聚集模式，但单独使用时区分能力有限，需结合其他特征共同构建预测模型。

使用方法

研究者可通过Hugging Face的datasets库直接加载此数据集，便捷地转换为pandas DataFrame格式进行探索性分析。在建模应用中，建议将反应堆类型作为目标变量，并综合利用容量、经纬度、国家、运行状态及衍生特征如反应堆年龄等进行预测。针对类别不平衡问题，可考虑采用平衡采样策略或选择随机森林等对不平衡数据相对稳健的模型。该数据集适用于核能技术分类、地理信息分析及能源政策研究等多个跨学科领域。

背景与挑战

背景概述

GeoNuclearData数据集源于Kaggle平台，由研究人员jonblustein于2024年构建并发布，聚焦于全球核反应堆的地理与技术特征分析。该数据集整合了反应堆的国家、位置、类型、容量及运行状态等多维度信息，旨在通过机器学习方法探究压水堆（PWR）与沸水堆（BWR）的分类预测问题。其创建推动了核能科学与地理信息学的交叉研究，为反应堆类型识别、能源政策评估及安全监管提供了数据基础，在核工程与数据科学领域具有显著的应用潜力。

当前挑战

该数据集致力于解决核反应堆类型自动分类的挑战，核心问题在于如何从有限的地理与技术特征中准确区分PWR与BWR两类反应堆。构建过程中面临多重困难：原始数据存在缺失值与类别不平衡，PWR样本数量远超BWR，影响模型泛化能力；地理坐标虽具信息量，但无法清晰分离两类反应堆，需结合容量、国家等多特征融合分析。此外，数据覆盖范围与时效性受限，可能遗漏新兴反应堆或历史变动信息，增加了预测任务的不确定性。

常用场景

衍生相关工作

围绕GeoNuclearData衍生的经典研究聚焦于机器学习在能源地理学的创新应用。例如，基于该数据集的随机森林分类工作，揭示了容量与地理坐标的协同预测效应，启发了后续研究引入气候、经济等跨域特征增强模型泛化能力。此外，学者利用其不平衡类别分布开发了过采样与集成学习策略，推动了非平衡数据分类方法的发展。这些工作不仅深化了核反应堆类型预测的技术路线，还为地理空间数据挖掘在能源安全领域的拓展提供了方法论参考。

数据集最近研究