five

electricsheepafrica/africa-cod-ps-eri

收藏
Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-cod-ps-eri
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - n<1K source_datasets: - original task_categories: - other task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - baseline-population - demographics - gazetteer - eri pretty_name: "Eritrea - Subnational Population Statistics" dataset_info: splits: - name: train num_examples: 0 - name: test num_examples: 0 --- # Eritrea - Subnational Population Statistics **Publisher:** OCHA Regional Office for Southern and Eastern Africa (ROSEA) · **Source:** [HDX](https://data.humdata.org/dataset/cod-ps-eri) · **License:** `cc-by-igo` · **Updated:** 2025-03-05 --- ## Abstract Eritrea level 0 (national), level 1 (region), and level 2 (district) 2001 population statistics including number of individuals, number of households, number of administrative villages, and number of villages. REFERENCE YEAR: 2001 These tables are suitable for database or GIS linkage to the [Eritrea - Subnational Administrative Boundaries](https://data.humdata.org/dataset/cod-ab-eri). Each row in this dataset represents tabular records. Data was last updated on HDX on 2025-03-05. Geographic scope: **ERI**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Demographics and population | | **Unit of observation** | Tabular records | | **Rows (total)** | 1 | | **Columns** | 7 (3 numeric, 4 categorical, 0 datetime) | | **Train split** | 0 rows | | **Test split** | 0 rows | | **Geographic scope** | ERI | | **Publisher** | OCHA Regional Office for Southern and Eastern Africa (ROSEA) | | **HDX last updated** | 2025-03-05 | --- ## Variables **Demographic** — `villages` (range 2594.0–2594.0), `households` (range 670390.0–670390.0). **Identifier / Metadata** — `adm0_pcode` (ER), `esa_source` (HDX), `esa_processed` (2026-04-04). **Other** — `adm0_en` (Eritrea), `t_tl` (range 2908795.0–2908795.0). --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-cod-ps-eri") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `adm0_en` | object | 0.0% | Eritrea | | `adm0_pcode` | object | 0.0% | ER | | `villages` | int64 | 0.0% | 2594.0 – 2594.0 (mean 2594.0) | | `households` | int64 | 0.0% | 670390.0 – 670390.0 (mean 670390.0) | | `t_tl` | int64 | 0.0% | 2908795.0 – 2908795.0 (mean 2908795.0) | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | 2026-04-04 | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `villages` | 2594.0 | 2594.0 | 2594.0 | 2594.0 | | `households` | 670390.0 | 670390.0 | 670390.0 | 670390.0 | | `t_tl` | 2908795.0 | 2908795.0 | 2908795.0 | 2908795.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from OCHA Regional Office for Southern and Eastern Africa (ROSEA) and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/cod-ps-eri) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_cod_ps_eri, title = {Eritrea - Subnational Population Statistics}, author = {OCHA Regional Office for Southern and Eastern Africa (ROSEA)}, year = {2025}, url = {https://data.humdata.org/dataset/cod-ps-eri}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在人口统计学与地理信息科学领域,构建高质量的数据集对于支持区域发展分析与政策制定至关重要。本数据集源自联合国人道主义事务协调厅南部和东部非洲区域办事处发布的原始数据,通过HDX平台公开获取。数据经过Electric Sheep Africa团队的精心整理,从CKAN API下载原始资料后,执行了系统的标准化处理流程,包括统一列名为蛇形命名法、规范化缺失值标记为NaN,并采用固定随机种子将数据划分为训练集与测试集,最终以Snappy压缩的Parquet格式存储,确保了数据的机器可读性与处理效率。
特点
该数据集聚焦于厄立特里亚国家及次国家层级的人口统计信息,涵盖了2001年全国、区域和行政区划级别的人口、家庭、行政村庄及村庄数量等关键指标。其结构简洁明了,仅包含单行记录与七个字段,其中三个为数值型变量,四个为分类变量,所有字段均无缺失值,保证了数据的完整性与一致性。数据集具有明确的地理范围限定,专为与厄立特里亚行政边界地理信息系统数据关联而设计,为人口空间分布研究提供了精准的tabular数据基础。
使用方法
在应用层面,该数据集适用于人口统计建模、区域发展规划及人道主义响应分析等场景。研究人员可通过Hugging Face的datasets库直接加载数据,利用Python环境快速转换为Pandas DataFrame进行探索性分析。由于数据已预分割为训练集与测试集,用户可立即投入机器学习流程,结合地理边界数据实现空间可视化或构建预测模型。使用时应参考原始发布方的方法论说明,并注意数据的时间局限性,以确保分析结论的时效性与准确性。
背景与挑战
背景概述
在人口统计学与地理信息系统交叉研究领域,精确的次国家级人口统计数据对于区域发展规划、人道主义响应及社会经济分析具有不可或缺的价值。'africa-cod-ps-eri'数据集由联合国人道主义事务协调厅南部和东部非洲区域办公室于2025年发布,并由Electric Sheep Africa机构进行机器学习友好化重构,其核心聚焦于厄立特里亚国家、区域及区县层级的2001年人口统计指标,涵盖个体数量、家庭户数、行政村庄及村庄总数等关键维度。该数据集旨在为学术研究与政策制定提供结构化、可关联的地理空间人口基准数据,尤其服务于非洲地区的发展分析与模型构建,体现了国际组织在数据公开与标准化方面的持续努力。
当前挑战
该数据集致力于解决次国家级人口统计数据的标准化与可访问性问题,其核心挑战在于如何将分散、异构的行政人口信息整合为机器可读的统一格式,以支持跨区域比较与空间分析。在构建过程中,面临原始数据采集年代久远(2001年)、统计口径可能不一致以及数据更新滞后等现实困难;同时,自动化清洗流程难以修正原始数据中潜在的报告错误、定义差异或抽样偏差,这要求使用者必须谨慎参考原始发布方的方法学说明。此外,数据集规模较小(仅含单行记录),限制了其在复杂机器学习任务中的直接应用,凸显了在资源有限环境下构建高质量人口统计数据的普遍挑战。
常用场景
经典使用场景
在人口统计学与地理信息系统交叉领域,该数据集作为厄立特里亚国家级、区域级及地区级人口统计的标准化基准,常被用于构建空间人口分布模型。研究者通过将其与行政边界地理数据关联,能够精准分析2001年该国人口、家庭及村庄的层级分布格局,为区域发展规划提供数据支撑。
解决学术问题
该数据集解决了非洲地区,特别是厄立特里亚,长期存在的细粒度人口数据缺失问题,为学术界提供了可靠的历史人口基准。它支持对人口空间异质性、城乡分布模式及家庭规模演变的研究,有助于深化对撒哈拉以南非洲人口动态的理解,并为跨学科比较研究奠定数据基础。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的非洲人口预测模型,以及将其与其他社会经济指标融合的贫困地图绘制研究。此外,它常作为基准数据,用于验证遥感影像人口估算方法的准确性,推动了空间人口学方法在数据稀缺区域的应用创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作