cleaned_sustainable_energy_0020
收藏Hugging Face2026-04-06 更新2026-04-07 收录
下载链接:
https://huggingface.co/datasets/RKugel/cleaned_sustainable_energy_0020
下载链接
链接失效反馈官方服务:
资源简介:
本数据集为'全球可持续能源数据(2000-2020)'的清洗版本,涵盖约176个国家在2000至2019年间的能源获取、电力生产、经济指标和二氧化碳排放数据。原始数据集包含3,649行和21列,经过清洗后保留3,171行和18列,无缺失值。清洗过程包括删除缺失率高的列(如可再生能源占比、流向发展中国家的资金流等)、删除CO2缺失的行(因CO2是目标变量),并对仅含1-2个缺失值的行使用各国中位数填充。数据集包含18个字段,如国家名称、年份、电力获取率、清洁烹饪燃料使用率、可再生能源占比、化石燃料和核能发电量、人均能源消耗、CO2排放量、GDP增长和人均GDP等。该数据集适用于研究可再生能源对减少CO2排放的实际影响、能源结构变化趋势等任务。描述性统计显示,CO2排放的标准差是均值的近5倍,表明少数国家贡献了大部分全球排放。关键发现包括:排放高度集中在前10个国家;大型污染国虽生产大量可再生能源,但其在能源结构中的占比仍低;2000至2019年间,化石燃料发电量增速超过可再生能源。
This dataset is a cleaned version of the 'Global Sustainable Energy Data (2000–2020)', covering data on energy access, electric power generation, economic indicators, and carbon dioxide (CO₂) emissions for approximately 176 countries from 2000 to 2019. The original dataset contained 3,649 rows and 21 columns, while the cleaned version retains 3,171 rows and 18 columns with no missing values. The data cleaning process included removing columns with high missing rates (e.g., share of renewable energy, financial flows to developing countries, etc.), deleting rows with missing CO₂ data (as CO₂ is the target variable), and imputing rows with only 1 or 2 missing values using country-specific medians. The dataset includes 18 fields, such as country name, year, electrification rate, share of clean cooking fuel use, share of renewable energy, fossil fuel and nuclear power generation, per capita energy consumption, CO₂ emissions, GDP growth, and per capita GDP, among others. This dataset is suitable for tasks such as studying the actual impact of renewable energy on reducing CO₂ emissions and analyzing trends in energy structure changes. Descriptive statistics show that the standard deviation of CO₂ emissions is nearly 5 times the mean, indicating that a small number of countries contribute the majority of global emissions. Key findings include: emissions are highly concentrated in the top 10 countries; although major polluting nations produce large amounts of renewable energy, their share in the national energy mix remains low; between 2000 and 2019, the growth rate of fossil fuel power generation outpaced that of renewable energy power generation.
创建时间:
2026-03-29
原始信息汇总
Global Sustainable Energy - Cleaned Dataset (2000-2019) 数据集概述
数据集基本信息
- 数据集名称:Global Sustainable Energy - Cleaned Dataset (2000-2019)
- 来源:原始数据集为Kaggle上的Global Data on Sustainable Energy (2000-2020),由Ansh Tanwar提供。
- 处理者:Roie Kugel
- 所属机构/课程:Reichman University, Intro to Data Science
- 核心研究问题:可再生能源是否真正有助于减少二氧化碳排放,还是作用微乎其微?
数据内容与范围
- 时间范围:2000年至2019年。
- 地理范围:涵盖约176个国家。
- 数据规模:清洗后包含3,171行(每个国家每年为一行),18列,无缺失值。
- 原始规模:3,649行,21列。
数据列说明
数据集包含以下18个变量:
- Entity:国家名称。
- Year:年份(2000-2019)。
- Access to electricity (% of population):通电人口百分比。
- Access to clean fuels for cooking:使用现代烹饪燃料的人口百分比。
- Renewable energy share in total final energy consumption (%):可再生能源在终端能源消费总量中的占比。
- Electricity from fossil fuels (TWh):化石燃料发电量(太瓦时)。
- Electricity from nuclear (TWh):核能发电量(太瓦时)。
- Electricity from renewables (TWh):可再生能源发电量(太瓦时)。
- Low-carbon electricity (% electricity):低碳电力(低排放来源)占电力总量的百分比。
- Primary energy consumption per capita (kWh/person):人均一次能源消费量(千瓦时/人)。
- Energy intensity level of primary energy (MJ/$2017 PPP GDP):单位GDP(2017年购买力平价美元)的初级能源消耗强度(兆焦耳)。
- Value_co2_emissions_kt_by_country:二氧化碳排放量(千吨)。
- gdp_growth:年度GDP增长率(%)。
- gdp_per_capita:人均GDP(美元)。
- Density (P/Km2):人口密度(人/平方公里)。
- Land Area (Km2):国土面积(平方公里)。
- Latitude:纬度。
- Longitude:经度。
数据清洗过程
- 删除的列:
- Renewables (% equivalent primary energy):缺失率58.6%,过高。
- Financial flows to developing countries (US $):缺失率57.3%,过高。
- Renewable-electricity-generating-capacity-per-capita:缺失率25.5%,仍然过高。
- 删除的行:
- 目标变量(CO2排放量)缺失的行。
- 缺失值超过2个的行。
- 缺失值填充:
- 对于仅缺失1-2个值的行,使用该国自身的中位数填充。
- 若某国在某个变量上完全无数据(如无核电),则填充为0。
- 数据格式修正:
- 修正了“Density”列名中的换行符问题。
- 移除了该列数值中的逗号并转换为数字格式。
关键描述性统计
| 特征 | 均值 | 标准差 | 最小值 | 中位数 | 最大值 |
|---|---|---|---|---|---|
| 通电率 (%) | 77.67 | 31.15 | 1.25 | 97.86 | 100.00 |
| 清洁烹饪燃料使用率 | 60.35 | 40.28 | 0.00 | 78.85 | 100.00 |
| 可再生能源占比 (%) | 34.03 | 30.17 | 0.00 | 26.27 | 96.04 |
| 化石燃料发电量 (TWh) | 73.97 | 356.87 | 0.00 | 3.23 | 5,098.22 |
| 核能发电量 (TWh) | 14.14 | 75.04 | 0.00 | 0.00 | 809.41 |
| 可再生能源发电量 (TWh) | 24.64 | 102.59 | 0.00 | 1.64 | 2,014.57 |
| 二氧化碳排放量 (千吨) | 162,366 | 779,480 | 30 | 11,150 | 10,707,220 |
| 人均GDP (美元) | 12,747 | 19,271 | 0 | 4,354 | 123,514 |
注:二氧化碳排放量的标准差(779,480)接近均值(162,366)的5倍,表明全球排放高度集中于少数国家。
主要分析发现
- 排放极度不平等:前10大排放国的二氧化碳排放总量超过其余约166个国家的总和。
- 主要排放国生产可再生能源,但占比不足:主要排放国(如前10名)的可再生能源发电量绝对值大,但在其能源结构中的占比均未超过50%。
- 可再生能源与化石燃料同步增长:2000年至2019年间,可再生能源发电量增加,但化石燃料发电量增长更多,全球二氧化碳排放总量持续上升。
- 主要排放国化石燃料增速更快:在前10大排放国中,化石燃料发电量的增长远超可再生能源。例如,中国在此期间新增的可再生能源发电量约为1,500 TWh,但新增的化石燃料发电量超过3,500 TWh。
- 相关性分析:二氧化碳排放量与化石燃料发电量高度相关(r=0.99),与可再生能源发电量也呈强相关(r=0.86)。这主要因为大国生产了更多的一切(包括化石能源和可再生能源),规模是主要驱动因素。
- 离群值分析:在二氧化碳排放量、GDP和化石燃料发电量等变量中存在的极端离群值(如中国、美国、印度)是真实情况,而非数据错误。
研究结论
可再生能源的作用是复杂的。在国家层面,可再生能源占比较高的国家往往排放较低。但在全球层面,作用有限。主要排放国生产了大量的可再生能源,但这仅占其能源总量的很小一部分。化石燃料生产的增速仍快于可再生能源。在2000年至2019年间,全球新增的化石燃料产能超过可再生能源产能,总二氧化碳排放量持续上升。全球排放问题高度集中于少数几个国家。除非这些国家加速能源转型,否则其他较小国家的努力影响有限。因此,尽管可再生能源在增长,但以目前的速度来看,其作用仍然微乎其微。
搜集汇总
数据集介绍

构建方式
在可持续能源研究领域,构建高质量数据集对于评估全球能源转型进程至关重要。cleaned_sustainable_energy_0020数据集基于Kaggle平台上的原始全球可持续能源数据,经过系统清洗与整理而成。清洗过程首先剔除了缺失率超过25%的变量,如“可再生能源占比”等三列,以确保数据可靠性。针对目标变量二氧化碳排放量缺失的行予以删除,并对仅含少量缺失值的记录采用各国自身中位数进行填补,有效保持了国家间的异质性。此外,对人口密度等字段的格式问题进行了修正,最终得到一个涵盖176个国家、跨越2000至2019年、包含18个关键指标且无缺失值的平衡面板数据集。
使用方法
在应用该数据集进行实证分析时,研究者可采用多种计量经济学与机器学习方法。对于探索可再生能源对碳排放的影响这一核心议题,可构建固定效应面板模型以控制国家不随时间变化的特征,或采用动态面板模型捕捉路径依赖。鉴于数据中存在的极端值并非异常而是现实反映,分析时需谨慎处理高影响力观测值,可考虑分位数回归或对主要变量进行对数转换。数据集中的地理坐标信息支持空间计量分析,以考察能源政策的溢出效应。在进行预测建模时,应注意将国家作为分层变量纳入考虑,避免因忽略组内相关性而导致模型过拟合。
背景与挑战
背景概述
在应对全球气候变化与能源转型的宏观背景下,可持续能源数据的系统收集与分析成为政策制定与学术研究的关键基础。cleaned_sustainable_energy_0020数据集由Reichman大学数据科学导论课程的学生Roie Kugel基于Ansh Tanwar在Kaggle平台发布的原始数据集(2000-2020年全球可持续能源数据)清洗整理而成,其核心研究问题聚焦于评估可再生能源在降低二氧化碳排放方面的实际效能,旨在揭示全球能源结构转型的真实进展与潜在瓶颈。该数据集覆盖约176个国家跨越二十年的多维指标,包括能源获取、电力生产结构、经济水平及碳排放等,为量化分析各国能源可持续发展路径提供了标准化、无缺失的实证基础。
当前挑战
该数据集致力于解决全球能源与环境交叉领域的核心挑战,即如何准确评估可再生能源对碳排放的净影响,并识别能源转型中的结构性障碍。构建过程中的主要挑战体现在数据质量与一致性的处理上:原始数据存在显著缺失,如“可再生能源占比”等关键变量缺失率超过50%,迫使清洗过程必须审慎剔除不可靠字段;同时,各国在能源结构、经济规模与排放水平上差异巨大,碳排放数据的标准差接近均值的五倍,这种高度异质性使得缺失值填补与异常值识别极为复杂,需采用国别中位数等情境化方法以避免扭曲全球分布。此外,地理与人口统计字段的格式不一致也增加了数据标准化的难度。
常用场景
经典使用场景
在可持续能源研究领域,该数据集常被用于分析全球范围内可再生能源发展与碳排放之间的动态关系。研究者通过整合各国在电力获取、能源结构、经济指标及二氧化碳排放等多维度数据,构建面板数据模型,以评估可再生能源在总能源消费中的占比对减排效果的实际影响。此类分析不仅揭示了不同国家能源转型路径的异质性,也为理解全球能源系统演变提供了实证基础。
解决学术问题
该数据集有效解决了能源经济学与环境科学中若干关键问题,例如量化可再生能源渗透率与碳排放强度的因果关系,辨析经济增长、能源强度与排放脱钩的内在机制。通过提供跨国家、跨年份的清洁能源指标,它助力学者检验能源转型理论,识别影响减排成效的结构性因素,从而推动关于全球气候治理与可持续发展目标的学术对话。
实际应用
在实际应用中,该数据集为政策制定者与国际组织提供了决策支持。例如,各国政府可依据数据评估自身能源政策成效,优化可再生能源补贴与碳定价机制;国际机构如联合国开发计划署则能借助数据监测可持续发展目标(SDG7)的进展,识别能源贫困区域并设计针对性援助方案。此外,能源企业与投资机构也利用此类数据进行市场分析与风险评估。
数据集最近研究
最新研究方向
在可持续能源领域,全球能源转型的深度与广度正成为学界关注的焦点。基于cleaned_sustainable_energy_0020数据集,近期研究聚焦于剖析可再生能源增长与碳排放脱钩的复杂机制。前沿探索揭示,尽管可再生能源装机容量显著提升,但其在主要排放国的能源结构中占比仍显不足,化石能源消费的绝对增长持续驱动全球碳排放上升。学者们正运用异质性分析方法,识别不同国家在能源强度、经济结构及地理特征影响下的减排路径差异,尤其关注大国责任与全球排放不平等议题。这些研究为评估《巴黎协定》实施效果提供了实证基础,并推动政策制定者思考如何加速结构性转型,以实现气候目标。
以上内容由遇见数据集搜集并总结生成



