five

electricsheepafrica/africa-somalia-price-of-water

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-somalia-price-of-water
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - 10K<n<100K source_datasets: - original task_categories: - tabular-regression - other task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - indicators - water-sanitation-and-hygiene-wash - som pretty_name: "Somalia - Price of Water" dataset_info: splits: - name: train num_examples: 8524 - name: test num_examples: 2131 --- # Somalia - Price of Water **Publisher:** HDX · **Source:** [HDX](https://data.humdata.org/dataset/somalia-price-of-water) · **License:** `cc-by` · **Updated:** 2025-05-05 --- ## Abstract Market monitoring, data on price of water from 2011 to 2022 in Somalia Each row in this dataset represents subnational administrative unit observations. Temporal coverage is indicated by the `month` column(s). Geographic scope: **SOM**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Market and price monitoring | | **Unit of observation** | Subnational administrative unit observations | | **Rows (total)** | 10,656 | | **Columns** | 6 (1 numeric, 4 categorical, 1 datetime) | | **Train split** | 8,524 rows | | **Test split** | 2,131 rows | | **Geographic scope** | SOM | | **Publisher** | HDX | | **HDX last updated** | 2025-05-05 | --- ## Variables **Geographic** — `region` (Lower Shabelle, Gedo, Bari), `district` (Borama, Qansax Dheere, Buur Hakaba). **Temporal** — `month`. **Outcome / Measurement** — `water_price` (range 1000.0–530000.0). **Identifier / Metadata** — `esa_source` (HDX), `esa_processed` (2026-04-11). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-somalia-price-of-water") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `region` | object | 0.0% | Lower Shabelle, Gedo, Bari | | `district` | object | 0.0% | Borama, Qansax Dheere, Buur Hakaba | | `month` | datetime64[ns] | 0.0% | | | `water_price` | float64 | 39.0% | 1000.0 – 530000.0 (mean 23926.8659) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-11 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `water_price` | 1000.0 | 530000.0 | 23926.8659 | 20000.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 1 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from HDX and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - The following columns have >20% missing values and should be treated with caution in modelling: `water_price`. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/somalia-price-of-water) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_somalia_price_of_water, title = {Somalia - Price of Water}, author = {HDX}, year = {2025}, url = {https://data.humdata.org/dataset/somalia-price-of-water}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在非洲水资源监测领域,该数据集源于人道主义数据交换平台(HDX)发布的原始监测数据,覆盖了索马里自2011年至2022年间的水价记录。数据构建过程涉及从HDX通过CKAN API下载原始资料,随后进行系统性的清洗与标准化处理:列名被统一转换为蛇形命名法,常见的缺失值标记如'N/A'、'null'等被规范为NaN值,并依据超过85%的解析成功率将字符串列转换为数值或日期时间类型。最终,数据以80/20的比例通过固定随机种子划分为训练集与测试集,并以Snappy压缩的Parquet格式存储,确保了数据的机器学习可用性。
特点
该数据集以表格形式呈现,共计10,656条观测记录,涵盖索马里多个次国家级行政单位的水价信息。其显著特点在于包含地理、时间与价格三类核心变量:地理维度细分为区域与地区两级,时间维度精确到月份,而水价数值范围广泛,从1,000至530,000不等,平均值为23,926.87。数据集结构清晰,包含6个列,其中水价列存在约39%的缺失值,需在建模时谨慎处理。此外,数据经过精心整理,具备明确的训练与测试分割,为回归分析等任务提供了直接可用的基础。
使用方法
使用该数据集时,研究者可借助Hugging Face的datasets库便捷加载,通过调用load_dataset函数并指定数据集名称即可获取训练与测试分区。数据以Pandas DataFrame形式呈现后,可进一步进行探索性分析或建模预处理。鉴于水价列存在部分缺失,建议采用适当的插值或缺失值处理策略。该数据集适用于表格回归任务,如预测水价随时间或地理区域的变化趋势,也可用于人道主义背景下的市场监测研究。用户应参考原始HDX页面以了解数据收集的方法学细节与潜在局限性。
背景与挑战
背景概述
在非洲之角,索马里长期面临水资源短缺与市场波动带来的严峻挑战。为深入理解水价动态及其对民生的影响,人道主义数据交换平台于2025年发布了索马里水价数据集,涵盖了2011年至2022年间全国各次国家级行政单位的水价监测记录。该数据集由Electric Sheep Africa机构进行机器学习化处理,旨在为区域经济分析、人道主义响应及公共政策制定提供关键时序数据支撑。其核心研究问题聚焦于揭示索马里水市场的时空演变规律,从而为水资源管理与危机干预提供实证依据。
当前挑战
该数据集致力于解决水价预测与市场监测领域的挑战,其核心在于应对索马里地区因气候波动、冲突频发及基础设施薄弱所导致的水价高度不稳定性和区域异质性。在构建过程中,数据集面临原始数据缺失率较高、数值范围跨度巨大以及数据采集标准不一致等难题。特别是水价字段存在约39%的缺失值,且极值差异显著,从1000至530000不等,这为模型的稳健训练与泛化能力带来了严峻考验。此外,数据依赖外部平台采集,可能存在报告偏差与定义不一致等固有局限,需谨慎解读与建模。
常用场景
经典使用场景
在非洲人道主义与发展研究领域,水资源价格监测是评估区域经济稳定与民生福祉的关键维度。该数据集通过记录索马里各地区从2011年至2022年的月度水价数据,为研究者提供了连续且细粒度的观测序列。其经典使用场景在于构建时间序列回归模型,以分析水价波动与季节性因素、地理分布及社会经济冲击之间的关联,从而揭示市场动态背后的潜在规律。
解决学术问题
该数据集有效解决了发展经济学与环境资源管理中的若干核心学术问题。通过提供标准化的子国家级行政单位观测值,它支持对水资源可及性与贫困陷阱的量化研究,助力探讨价格机制在脆弱环境下的形成过程。其意义在于填补了索马里地区长期系统性价格数据的空白,为实证分析提供了可靠基准,推动了基于证据的政策评估与干预设计。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,学者利用其构建了融合地理与时间特征的水价预测模型,探索冲突与气候变量对资源成本的影响。此外,相关研究还拓展至跨区域比较分析,将索马里数据与其他非洲国家数据集结合,系统评估水资源市场的整合程度与脆弱性,为全球发展研究提供了重要案例参考。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务