five

electricsheepafrica/africa-world-bank-environment-indicators-for-gabon

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-environment-indicators-for-gabon
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification - tabular-regression task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - environment - indicators - gab pretty_name: "Gabon - Environment" dataset_info: splits: - name: train num_examples: 3908 - name: test num_examples: 977 --- # Gabon - Environment **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-environment-indicators-for-gabon) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-gabon) on HDX. Natural and man-made environmental resources – fresh water, clean air, forests, grasslands, marine resources, and agro-ecosystems – provide sustenance and a foundation for social and economic development. The need to safeguard these resources crosses all borders. Today, the World Bank is one of the key promoters and financiers of environmental upgrading in the developing world. Data here cover forests, biodiversity, emissions, and pollution. Other indicators relevant to the environment are found under data pages for Agriculture & Rural Development, Energy & Mining, Infrastructure, and Urban Development. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **GAB**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Water, sanitation and hygiene (wash) | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 4,886 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 3,908 rows | | **Test split** | 977 rows | | **Geographic scope** | GAB | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (Gabon), `country_iso3` (GAB), `year` (range 1960.0–2024.0). **Outcome / Measurement** — `value` (range -1301144684.9222–4938857483.2778). **Identifier / Metadata** — `indicator_name` (Total fisheries production (metric tons), Capture fisheries production (metric tons), Aquaculture production (metric tons)), `indicator_code` (ER.FSH.PROD.MT, ER.FSH.CAPT.MT, ER.FSH.AQUA.MT), `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-environment-indicators-for-gabon") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | Gabon | | `country_iso3` | object | 0.0% | GAB | | `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 1999.8064) | | `indicator_name` | object | 0.0% | Total fisheries production (metric tons), Capture fisheries production (metric tons), Aquaculture production (metric tons) | | `indicator_code` | object | 0.0% | ER.FSH.PROD.MT, ER.FSH.CAPT.MT, ER.FSH.AQUA.MT | | `value` | float64 | 0.0% | -1301144684.9222 – 4938857483.2778 (mean 43505056.7031) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 1999.8064 | 2002.0 | | `value` | -1301144684.9222 | 4938857483.2778 | 43505056.7031 | 3.437 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-environment-indicators-for-gabon) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_environment_indicators_for_gabon, title = {Gabon - Environment}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-environment-indicators-for-gabon}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在环境科学领域,数据集的构建往往依赖于权威机构发布的标准化指标。本数据集源自世界银行集团的环境指标门户,由Electric Sheep Africa团队通过HDX平台获取原始数据,并进行了系统的数据清洗与格式化处理。原始数据经由CKAN API下载后,经过列名标准化、缺失值统一标记为NaN等预处理步骤,最终转换为Parquet格式。为确保机器学习任务的适用性,数据集按照80:20的比例划分为训练集与测试集,并采用固定随机种子以保证可复现性。
使用方法
对于研究人员而言,该数据集可直接通过Hugging Face的datasets库加载,实现便捷的访问与预处理。用户可使用Python代码调用load_dataset函数,将数据转换为Pandas DataFrame以进行进一步分析。数据集已预先划分为训练集与测试集,适用于构建环境指标预测模型或趋势分析。在应用时,建议参考世界银行集团的原始方法论说明,以理解指标定义与收集背景,并结合领域知识对模型结果进行合理解释。
背景与挑战
背景概述
环境指标数据集在可持续发展研究领域扮演着关键角色,为政策制定与资源管理提供量化依据。'africa-world-bank-environment-indicators-for-gabon'数据集由世界银行集团发布,并由Electric Sheep Africa于2026年重新整理为机器学习可用格式,聚焦于加蓬的环境状况监测。该数据集汇集了1960年至2024年间加蓬的渔业生产等核心环境指标,旨在支持对自然资源动态、生态系统服务及环境政策效力的实证分析。其创建反映了国际机构对非洲环境数据透明化与可及性的持续推动,为区域环境经济学、生态建模及发展评估研究提供了结构化数据基础。
当前挑战
该数据集致力于解决环境指标分析与预测的挑战,尤其在资源有限的地区实现精准环境监测与政策评估。具体挑战包括处理长时间序列数据中的缺失值与异常值,例如渔业产量指标中存在的负值或极端波动,这要求研究者在建模时进行严谨的数据清洗与合理性校验。构建过程中的挑战源于原始数据源的异构性,世界银行的数据收集依赖于各国统计体系,可能面临定义不一致、报告延迟或测量方法变更等问题。此外,将宏观国家层面聚合数据转化为适用于机器学习任务的表格形式,需平衡数据完整性、时序一致性及预测任务的适用性,同时确保自动化处理流程不引入新的偏差。
常用场景
经典使用场景
在环境科学与可持续发展研究领域,该数据集为分析加蓬渔业生产动态提供了关键的时间序列数据。研究者通常利用其包含的1960年至2024年间的总渔业产量、捕捞产量和水产养殖产量指标,构建回归模型以预测未来趋势,或通过分类任务探究不同年份间产量变化的驱动因素。这些分析有助于揭示自然资源管理的长期演变规律,为政策制定提供实证基础。
解决学术问题
该数据集有效解决了环境经济学中关于资源可持续利用的量化评估难题。通过提供标准化的国家级渔业生产指标,学者能够精确测算自然资源对经济发展的贡献度,评估过度捕捞等环境压力,并检验可持续发展理论在具体地域的适用性。其跨年度连续性数据为识别环境政策干预效果、建立生态-经济耦合模型提供了不可或缺的实证支撑。
实际应用
在实际应用层面,该数据集被广泛整合进加蓬国家环境监测系统与区域发展规划工具中。政府部门依据其趋势分析调整渔业配额和保护区划定;国际组织如世界银行则借助这些指标评估援助项目成效。同时,数据科学家将其作为特征工程的基础,开发预警模型以预测资源枯竭风险,辅助实现联合国可持续发展目标中关于海洋资源的保护要求。
数据集最近研究
最新研究方向
在环境科学领域,加蓬环境指标数据集为研究非洲地区渔业资源动态提供了关键数据支撑。当前前沿研究聚焦于利用机器学习方法分析渔业生产的时间序列模式,探索气候变化与海洋生态系统之间的复杂关联。该数据集与全球可持续发展目标紧密相连,尤其在海洋资源管理和生物多样性保护方面,为政策制定者提供了量化依据。随着非洲蓝色经济战略的推进,这类环境指标数据在预测渔业产量、评估生态承载力以及优化资源分配策略中发挥着日益重要的作用,推动了跨学科的环境建模与决策支持系统的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务