asia-demographics-all
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/electricsheepasia/asia-demographics-all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集为孟加拉国2022年人口与住房普查数据,由孟加拉国统计局(BBS)编制。数据集包含两部分:(1) 人口普查,提供社会经济和人口统计信息;(2) 住房普查,提供住房单元及其条件和设施的详细信息。数据覆盖最小地理单位,但目前仅提供至区级(Admin 02)。数据集包含445条表格记录,分为训练集(356条)和测试集(89条),共有4个分类字段。数据经过Electric Sheep Africa处理,转换为适合机器学习的Parquet格式,并进行了标准化清理。适用于表格分类等任务,涉及领域包括公共卫生、人口统计、社会经济等。数据集由联合国孟加拉国发布,最后更新于2025年4月15日。使用需注意原始数据可能存在报告错误或定义不一致的情况。
创建时间:
2026-05-04
原始信息汇总
数据集概述:孟加拉国人口与住房普查数据集
基本信息
- 数据集名称:Bangladesh : Population and Housing Census Dataset
- 发布者:UN in Bangladesh
- 数据来源:HDX
- 许可证:
other-pd-nr - 更新日期:2025-04-15
- 地理范围:孟加拉国(BGD)
- 数据整理方:Electric Sheep Africa
数据集摘要
该数据集基于孟加拉国统计局(BBS)2022年人口与住房普查数据整理而成,涵盖以下两部分:
- 人口普查:提供全国每个居民的社会经济和人口信息,细化到最小地理单元。
- 住房普查:提供全国所有 dwelling 单元的状况及可用设施信息,细化到最小地理单元。
目前数据仅提供至区级(Admin 02)。每条记录代表表格化数据。
数据集特征
| 属性 | 值 |
|---|---|
| 领域 | 公共卫生 |
| 观测单位 | 表格记录 |
| 总行数 | 445 |
| 列数 | 4(0数值列,4类别列,0日期列) |
| 训练集 | 356行 |
| 测试集 | 89行 |
| 地理范围 | 孟加拉国(BGD) |
| 发布者 | UN in Bangladesh |
| HDX最后更新 | 2025-04-15 |
变量说明
| 列名 | 类型 | 空值率 | 示例值 |
|---|---|---|---|
indicators |
object | 0.0% | Toilet Facilities_Safe Disposal with Flushing/ Pouring Water_%, 25-29 Years_Male_Student_#, % Male_Ethnic Population |
defination_of_indicator |
object | 0.0% | Total Household (General), Total Population, Others_% |
esa_source |
object | 0.0% | HDX |
esa_processed |
object | 0.0% | 2026-05-04 |
数值统计
无数值列。
数据整理过程
- 通过CKAN API从HDX下载原始数据,转换为Parquet格式。
- 列名统一转为小写蛇形命名法。
- 常见缺失值标记统一处理为
NaN。 - 删除缺失率超过80%的列(
table_no_as_per_main_bbs_document_sheettitle_as_per_excel_dataset)。 - 使用固定随机种子(42)按80/20比例划分训练集和测试集,保存为Snappy压缩Parquet文件。
局限性
- 数据来源于UN in Bangladesh,ESA未独立验证。
- 自动清洗无法纠正原始数据中的误报、定义不一致或采样偏差。
- 建议参考原始HDX数据集页面了解发布者的方法论说明。
引用格式
bibtex @dataset{hdx_asia_demographics_all, title = {Bangladesh : Population and Housing Census Dataset}, author = {UN in Bangladesh}, year = {2025}, url = {https://data.humdata.org/dataset/populationa-and-housing-census-dataset}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
asia-demographics-all数据集源自孟加拉国统计局(BBS)2022年人口与住房普查,由联合国驻孟加拉国团队整理并发布在HDX平台上,后经Electric Sheep Africa团队通过CKAN API下载原始数据,并将其转化为机器学习的Parquet格式。在数据清洗过程中,列名被统一为小写蛇形命名法,常见缺失值标记被统一替换为NaN,缺失率超过80%的列被移除。最终将数据集按80/20比例随机划分为训练集和测试集,并采用Snappy压缩的Parquet格式存储。
特点
该数据集聚焦于孟加拉国行政区划至地区级的人口与社会经济特征,共包含445条记录,涵盖4个类别型变量,分别为指标名称、指标定义、数据来源与处理时间。数据内容涉及卫生设施、年龄性别结构、族群比例等多元维度,适用于公共健康、人口统计及社会经济领域的交叉分析。数据集在HuggingFace上以标准化格式发布,并附有详细的变量说明与示例代码,便于研究人员快速接入与复现。
使用方法
用户可借助HuggingFace的datasets库直接加载该数据集,通过一行代码`load_dataset("electricsheepafrica/asia-demographics-all")`即可获取训练与测试集。加载后的数据可轻松转换为Pandas DataFrame,便于后续的数据探索、可视化及建模工作。该数据集特别适用于表格分类任务或其他结构化数据的机器学习场景,为用户提供了一个经过初步清洗、可直接用于分析与建模的人口普查数据资源。
背景与挑战
背景概述
人口与住房普查是衡量一个国家社会发展与资源配置的基础性数据来源,尤其在发展中国家,精确的人口统计资料对公共卫生政策、基础设施规划与人道主义援助具有不可替代的作用。Asia-demographics-all数据集由联合国驻孟加拉国机构于2025年发布,基于孟加拉国统计局(BBS)2022年人口与住房普查结果,经Electric Sheep Africa团队整理为机器学习就绪的Parquet格式。该数据集聚焦于孟加拉国行政区划第二层级(地区级)的社会经济与人口统计指标,涵盖卫生设施、人口结构、教育状况等关键变量,为人道主义领域与公共卫生研究提供了标准化的结构化数据基础,显著提升了大规模人口数据在机器学习任务中的可用性与可复现性。
当前挑战
该数据集面临的主要挑战体现在两个方面。在领域问题层面,尽管其提供了详尽的人口与住房统计信息,但原始数据采集过程中存在定义不一致、抽样偏差及统计口径差异等问题,可能导致模型预测偏移与地域泛化能力受限,尤其在孟加拉国各行政区间的社会经济异质性显著背景下,这些偏差易被放大。在构建过程中,数据清洗虽已统一缺失值标记、移除高缺失率列,但无法修正原始报告中潜在的误报或采样偏误,同时数据仅覆盖至地区级别,尚未实现最低行政单元粒度,限制了微观层面的精细分析。此外,数据集仅包含4个分类变量,缺乏数值型连续特征,对基于统计学习的模型表达力构成约束。
常用场景
经典使用场景
asia-demographics-all数据集源自孟加拉国2022年人口与住房普查,由联合国驻孟加拉国团队整理发布,经Electric Sheep Africa清洗后以Parquet格式供机器学习使用。该数据集最经典的使用场景是作为表格分类任务的基准数据,涵盖人口统计、卫生设施、教育等多元指标,适用于构建预测模型。例如,研究者可基于其人口比例、性别分布、族裔构成等特征,进行区域分类或社会经济指标预测,为南亚人口学研究提供了结构化、标准化的小样本训练资源。
实际应用
在实际应用中,asia-demographics-all数据集可用于人道主义援助与公共卫生规划领域。国际组织可基于其卫生设施指标,精准识别安全厕所覆盖率低的区域,优先部署水利与卫生改善项目;政府机构则可借助人口结构数据,优化教育医疗资源配置。此外,该数据集支持开发简易分类工具,助力非盈利组织在资源受限环境下快速评估社区发展需求,将普查成果转化为可操作的社会干预指南。
衍生相关工作
该数据集衍生了多项经典工作,尤其在人道主义数据标准化方面影响显著。Electric Sheep Africa基于此模式开发了‘非洲基线人口’系列数据集,推动HDX平台数据的机器学习就绪化。围绕其指标定义与地域分类,诞生了若干迁移学习与少样本分类研究,验证了小规模表格数据在区域建模中的有效性。该数据集还常被用作案例,论证联合国数据开放倡议对计算社会科学的赋能价值,激励了更多面向发展中国家的公共数据集改造工程。
以上内容由遇见数据集搜集并总结生成



