five

electricsheepafrica/africa-world-bank-environment-indicators-for-south-sudan

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-world-bank-environment-indicators-for-south-sudan
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - tabular-classification - tabular-regression task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - environment - indicators - ssd pretty_name: "South Sudan - Environment" dataset_info: splits: - name: train num_examples: 1035 - name: test num_examples: 258 --- # South Sudan - Environment **Publisher:** World Bank Group · **Source:** [HDX](https://data.humdata.org/dataset/world-bank-environment-indicators-for-south-sudan) · **License:** `cc-by` · **Updated:** 2026-03-27 --- ## Abstract Contains data from the World Bank's [data portal](http://data.worldbank.org/). There is also a [consolidated country dataset](https://data.humdata.org/dataset/world-bank-combined-indicators-for-south-sudan) on HDX. Natural and man-made environmental resources – fresh water, clean air, forests, grasslands, marine resources, and agro-ecosystems – provide sustenance and a foundation for social and economic development. The need to safeguard these resources crosses all borders. Today, the World Bank is one of the key promoters and financiers of environmental upgrading in the developing world. Data here cover forests, biodiversity, emissions, and pollution. Other indicators relevant to the environment are found under data pages for Agriculture & Rural Development, Energy & Mining, Infrastructure, and Urban Development. Each row in this dataset represents country-level aggregates. Data was last updated on HDX on 2026-03-27. Geographic scope: **SSD**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Water, sanitation and hygiene (wash) | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 1,294 | | **Columns** | 8 (2 numeric, 6 categorical, 0 datetime) | | **Train split** | 1,035 rows | | **Test split** | 258 rows | | **Geographic scope** | SSD | | **Publisher** | World Bank Group | | **HDX last updated** | 2026-03-27 | --- ## Variables **Geographic** — `country_name` (South Sudan), `country_iso3` (SSD), `year` (range 1960.0–2024.0). **Outcome / Measurement** — `value` (range -1890956351.3235–5320757379.2486). **Identifier / Metadata** — `indicator_name` (Aquaculture production (metric tons), Total fisheries production (metric tons), Capture fisheries production (metric tons)), `indicator_code` (ER.FSH.AQUA.MT, ER.FSH.PROD.MT, ER.FSH.CAPT.MT), `esa_source` (HDX), `esa_processed` (2026-04-10). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-world-bank-environment-indicators-for-south-sudan") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `country_name` | object | 0.0% | South Sudan | | `country_iso3` | object | 0.0% | SSD | | `year` | int64 | 0.0% | 1960.0 – 2024.0 (mean 2008.5634) | | `indicator_name` | object | 0.0% | Aquaculture production (metric tons), Total fisheries production (metric tons), Capture fisheries production (metric tons) | | `indicator_code` | object | 0.0% | ER.FSH.AQUA.MT, ER.FSH.PROD.MT, ER.FSH.CAPT.MT | | `value` | float64 | 0.0% | -1890956351.3235 – 5320757379.2486 (mean 33425760.7655) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-10 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 1960.0 | 2024.0 | 2008.5634 | 2013.0 | | `value` | -1890956351.3235 | 5320757379.2486 | 33425760.7655 | 4.2261 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from World Bank Group and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/world-bank-environment-indicators-for-south-sudan) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_world_bank_environment_indicators_for_south_sudan, title = {South Sudan - Environment}, author = {World Bank Group}, year = {2026}, url = {https://data.humdata.org/dataset/world-bank-environment-indicators-for-south-sudan}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界银行数据门户,经由人道主义数据交换平台(HDX)获取,并由Electric Sheep Africa团队精心整理为机器学习就绪的Parquet格式。原始数据通过CKAN API从HDX下载,随后执行了列名小写化与蛇形命名标准化处理,并统一将各类缺失值标记(如N/A、null等)转化为NaN。最终,数据集按照80/20的比例,借助固定随机种子(42)划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据加载的高效性与一致性。
特点
数据集聚焦于南苏丹的环境指标,涵盖森林、生物多样性、排放与污染等关键领域,每行代表一个国家层面的聚合数据。包含8个变量,其中2个为数值型(年份与指标值),6个为分类型(如国家名称、指标名称等),共1294条记录。时间跨度从1960年至2024年,指标值范围宽泛,从负值到数十亿不等,反映了环境数据的复杂性与多样性。数据来源权威,经世界银行发布,并附带详细的变量描述与缺失值统计,为环境分析提供了坚实的数据基础。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用`load_dataset`函数直接获取训练集与测试集,并将其转换为Pandas DataFrame进行后续分析。数据集适用于表格分类与回归任务,支持基于年份、指标等变量进行筛选与探索。快速入门示例代码已提供,用户可轻松复现数据加载流程。此外,数据集采用CC-BY 4.0许可,允许自由使用与分享,但建议引用原始世界银行数据及Electric Sheep Africa的加工版本,以尊重数据来源与贡献。
背景与挑战
背景概述
在全球环境治理与可持续发展的宏大叙事中,准确且可获取的环境指标数据是政策制定与科学研究不可或缺的基石。由世界银行集团于2026年发布、并经Electric Sheep Africa策展为机器学习就绪格式的南苏丹环境指标数据集,正是这一背景下的重要尝试。该数据集整合了来自人道主义数据交换平台(HDX)的官方统计,聚焦于森林覆盖、生物多样性、排放与污染等关键环境维度,旨在为南苏丹这一受武装冲突与气候脆弱性双重困扰的国家提供量化分析基础。其核心价值在于将原先分散、异构的表格数据,通过标准化清洗与划分为训练集与测试集,转化为可被机器学习模型直接利用的条理化资源,从而推动了数据驱动的发展研究在非洲脆弱国家中的落地。
当前挑战
该数据集所面临的挑战集中在两个层面。首先从领域问题来看,南苏丹长期处于政治动荡与数据基础设施匮乏的困境,这导致传统环境监测体系难以覆盖全国,原始数据本身便存在稀疏、缺失乃至测量标准不一致的固有问题。即便是世界银行这类权威来源,其指标往往依赖间接估算,无法真实反映快速变化的当地实况,进而限制了回归与分类等建模任务的可靠性。其次在构建过程中,Electric Sheep Africa虽执行了统一的缺失值标记与列名规范化处理,但正如其免责声明所强调,自动清洗无法校正上游采集环节中的误报值、定义歧义或抽样偏倚。此外,数据仅包含八个字段,且观测单位为国家层面聚合,极大压缩了空间与时间维度的分辨率,难以支撑细粒度的亚国家层级或动态预测分析。
常用场景
经典使用场景
在环境科学与可持续发展研究领域,南苏丹世界银行环境指标数据集为分析脆弱国家生态系统的长期演变提供了宝贵的时间序列数据。研究者常利用该数据集跟踪1960年至2024年间南苏丹的森林覆盖、生物多样性、温室气体排放及污染水平等关键环境指标,通过构建面板数据回归模型或监督学习框架,揭示自然资源开采与经济增长之间的微妙平衡关系。尤其在水产养殖与渔业生产等指标上,该数据集中超过千条的年度观测记录使科研人员能够量化气候变化与人类活动对淡水生态系统的复合影响,为制定基于证据的环境政策奠定数据基础。
衍生相关工作
该数据集衍生出的经典工作包括若干利用迁移学习预测非洲数据匮乏地区环境指标的基准模型,例如基于南苏丹渔业数据训练的时间序列预测框架被扩展至邻国乌干达与刚果(金)的水产管理研究。同时,源自该数据集的“环境指标-冲突关联分析”已成为冲突生态学领域的标志性方法论,研究者通过融合HDX平台的人道主义事件数据,揭示了资源稀缺与武装冲突的耦合机制。Electric Sheep Africa团队基于此数据集构建的预处理与分割流程,更成为后续非洲大陆环境数据标准化的参考范式,推动了开放数据运动在低资源区域的实践深化。
数据集最近研究
最新研究方向
基于世界银行环境指标数据,南苏丹数据集聚焦于通过机器学习模型对该国渔业生产、生物多样性及污染排放等环境指标进行回归与分类预测,尤其关注1960年至2024年间长期趋势的量化分析。前沿研究方向包括利用时间序列建模捕捉环境资源变化的动态模式,以及探索国家层面聚合数据在资源匮乏地区(如南苏丹)环境政策制定中的潜在应用。该数据集作为世界银行与HuggingFace合作推动的非洲ML基础设施项目(Electric Sheep Africa)的一部分,其意义在于为南苏丹这样一个数据稀缺的冲突后国家提供了标准化的环境数据入口,助力可持续发展目标(SDGs)的监测与实现,并促进了全球南方环境议题的数据驱动研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务