five

electricsheepafrica/africa-idmc-idp-data-gin

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-idmc-idp-data-gin
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - en license: cc-by-4.0 multilinguality: - monolingual size_categories: - n<1K source_datasets: - original task_categories: - tabular-classification task_ids: [] tags: - africa - humanitarian - hdx - electric-sheep-africa - displacement - internally-displaced-persons-idp - natural-disasters - gin pretty_name: "Guinea - Internal Displacements (New Displacements) – IDPs" dataset_info: splits: - name: train num_examples: 16 - name: test num_examples: 4 --- # Guinea - Internal Displacements (New Displacements) – IDPs **Publisher:** Internal Displacement Monitoring Centre (IDMC) · **Source:** [HDX](https://data.humdata.org/dataset/idmc-idp-data-gin) · **License:** `cc-by-igo` · **Updated:** 2026-03-18 --- ## Abstract The [Global Internal Displacement Database (GIDD)](http://www.internal-displacement.org/database/displacement-data), maintained by the [Internal Displacement Monitoring Centre (IDMC)](https://www.internal-displacement.org/), provides comprehensive, validated annual estimates of internal displacement worldwide. It defines internally displaced persons (IDPs) in line with the [1998 Guiding Principles](https://www.internal-displacement.org/internal-displacement/guiding-principles-on-internal-displacement/), as people or groups of people who have been forced or obliged to flee or to leave their homes or places of habitual residence, in particular as a result of armed conflict, or to avoid the effects of armed conflict, situations of generalized violence, violations of human rights, or natural or human-made disasters and who have not crossed an international border. The GIDD tracks two primary metrics: "People Displaced" or population "Stock" figures, which represent the total number of people living in displacement at year-end, and "New Displacement," which counts new displacement incidents (population Flows) rather than individual people, accounting for potential multiple displacements by the same person. This dataset serves as a crucial resource for understanding long-term trends and validated displacement figures globally. For further detailed information and complete API specifications, users are encouraged to consult the official documentation at https://www.internal-displacement.org/database/api-documentation/. "Internally displaced persons - IDPs" refers to the number of people living in displacement as of the end of each year. "Internal displacements (New Displacements)" refers to the number of new cases or incidents of displacement recorded, rather than the number of people displaced. This is done because people may have been displaced more than once. Each row in this dataset represents country-level aggregates. Temporal coverage is indicated by the `start_date`, `end_date` column(s). Geographic scope: **GIN**. *Curated into ML-ready Parquet format by [Electric Sheep Africa](https://huggingface.co/electricsheepafrica).* --- ## Dataset Characteristics | | | |---|---| | **Domain** | Conflict and security | | **Unit of observation** | Country-level aggregates | | **Rows (total)** | 20 | | **Columns** | 22 (9 numeric, 11 categorical, 2 datetime) | | **Train split** | 16 rows | | **Test split** | 4 rows | | **Geographic scope** | GIN | | **Publisher** | Internal Displacement Monitoring Centre (IDMC) | | **HDX last updated** | 2026-03-18 | --- ## Variables **Geographic** — `iso3` (GIN), `country_name` (Guinea), `year` (range 2011.0–2024.0), `start_date_accuracy` (Day, Week, Month), `end_date_accuracy` (Day, Week, Month) and 11 others. **Temporal** — `start_date`, `end_date`. **Identifier / Metadata** — `event_name` (Guinea: Flood - 01/01/2011, Prefecture de siguiri flood, Guinea: Wildfire -Nzérékoré (Lola/Gbotoro/Guéasso)- 27/02/2024), `event_codes` (FL-2017-000083-GIN, FL-2021-000135-GIN, FL-2022-000305-GIN), `esa_source` (HDX), `esa_processed`. --- ## Quick Start ```python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-idmc-idp-data-gin") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() ``` --- ## Schema | Column | Type | Null % | Range / Sample Values | |---|---|---|---| | `iso3` | object | 0.0% | GIN | | `country_name` | object | 0.0% | Guinea | | `year` | int64 | 0.0% | 2011.0 – 2024.0 (mean 2018.2) | | `start_date` | datetime64[ns] | 0.0% | | | `start_date_accuracy` | object | 0.0% | Day, Week, Month | | `end_date` | datetime64[ns] | 5.0% | | | `end_date_accuracy` | object | 5.0% | Day, Week, Month | | `event_name` | object | 0.0% | Guinea: Flood - 01/01/2011, Prefecture de siguiri flood, Guinea: Wildfire -Nzérékoré (Lola/Gbotoro/Guéasso)- 27/02/2024 | | `hazard_category` | int64 | 0.0% | 2.0 – 2.0 (mean 2.0) | | `hazard_category_name` | object | 0.0% | Weather related | | `hazard_sub_category` | int64 | 0.0% | 2.0 – 4.0 (mean 3.05) | | `hazard_sub_category_name` | object | 0.0% | Hydrological, Meteorological, Climatological | | `hazard_type` | int64 | 0.0% | 9.0 – 14.0 (mean 10.6) | | `hazard_type_name` | object | 0.0% | Flood, Storm, Mass Movement | | `hazard_sub_type` | int64 | 0.0% | 11.0 – 21.0 (mean 14.2) | | `new_displacement` | int64 | 0.0% | 18.0 – 34861.0 (mean 4464.0) | | `new_displacement_rounded` | int64 | 0.0% | 18.0 – 35000.0 (mean 4493.95) | | `total_displacement` | float64 | 60.0% | 18.0 – 5000.0 (mean 1616.125) | | `total_displacement_rounded` | float64 | 60.0% | 18.0 – 5000.0 (mean 1624.75) | | `event_codes` | object | 80.0% | FL-2017-000083-GIN, FL-2021-000135-GIN, FL-2022-000305-GIN | | `esa_source` | object | 0.0% | HDX | | `esa_processed` | object | 0.0% | | --- ## Numeric Summary | Column | Min | Max | Mean | Median | |---|---|---|---|---| | `year` | 2011.0 | 2024.0 | 2018.2 | 2018.0 | | `hazard_category` | 2.0 | 2.0 | 2.0 | 2.0 | | `hazard_sub_category` | 2.0 | 4.0 | 3.05 | 3.0 | | `hazard_type` | 9.0 | 14.0 | 10.6 | 10.0 | | `hazard_sub_type` | 11.0 | 21.0 | 14.2 | 13.0 | | `new_displacement` | 18.0 | 34861.0 | 4464.0 | 559.0 | | `new_displacement_rounded` | 18.0 | 35000.0 | 4493.95 | 560.0 | | `total_displacement` | 18.0 | 5000.0 | 1616.125 | 1193.5 | | `total_displacement_rounded` | 18.0 | 5000.0 | 1624.75 | 1200.0 | --- ## Curation Raw data was downloaded from HDX via the CKAN API and converted to Parquet. Column names were lowercased and standardised to snake_case. Common missing-value markers (`N/A`, `null`, `none`, `-`, `unknown`, `no data`, `#N/A`) were unified to `NaN`. 1 column(s) with >80% missing values were removed: `hazard_subtype_name`. 2 column(s) were cast from string to numeric or datetime based on parse-success rate (>85% threshold). The dataset was split 80/20 into train and test partitions using a fixed random seed (42) and saved as Snappy-compressed Parquet. --- ## Limitations - Data originates from Internal Displacement Monitoring Centre (IDMC) and has not been independently validated by ESA. - Automated cleaning cannot correct for misreported values, definitional inconsistencies, or sampling bias in the original collection. - The following columns have >20% missing values and should be treated with caution in modelling: `total_displacement`, `total_displacement_rounded`, `event_codes`. - Refer to the [original HDX dataset page](https://data.humdata.org/dataset/idmc-idp-data-gin) for the publisher's own methodology notes and caveats. --- ## Citation ```bibtex @dataset{hdx_africa_idmc_idp_data_gin, title = {Guinea - Internal Displacements (New Displacements) – IDPs}, author = {Internal Displacement Monitoring Centre (IDMC)}, year = {2026}, url = {https://data.humdata.org/dataset/idmc-idp-data-gin}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} } ``` --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — Africa's ML dataset infrastructure. Lagos, Nigeria.*

annotations_creators: - 无注释 language_creators: - 采集获取 language: - 英语 license: CC-BY-4.0 multilinguality: - 单语言 size_categories: - 样本量<1000 source_datasets: - 原创数据集 task_categories: - 表格分类 task_ids: [] tags: - 非洲 - 人道主义 - HDX - Electric Sheep Africa - 流离失所 - 境内流离失所者(IDPs) - 自然灾害 - 几内亚(GIN) pretty_name: "几内亚——境内流离失所(新增流离事件)——境内流离失所者" dataset_info: splits: - name: 训练集 num_examples: 16 - name: 测试集 num_examples: 4 # 几内亚——境内流离失所(新增流离事件)——境内流离失所者 **发布方**:国内流离失所监测中心(Internal Displacement Monitoring Centre, IDMC) · **数据源**:[HDX](https://data.humdata.org/dataset/idmc-idp-data-gin) · **许可协议**:`CC-BY-IGO` · **更新时间**:2026-03-18 --- ## 摘要 由国内流离失所监测中心(Internal Displacement Monitoring Centre, IDMC)维护的[全球境内流离失所数据库(Global Internal Displacement Database, GIDD)](http://www.internal-displacement.org/database/displacement-data),提供了覆盖全球的、经过验证的年度境内流离失所综合估算数据。该数据库依据[1998年指导原则](https://www.internal-displacement.org/internal-displacement/guiding-principles-on-internal-displacement/)将境内流离失所者(internally displaced persons, IDPs)定义为:因武装冲突、规避武装冲突后果、大规模暴力事件、侵犯人权行为、自然或人为灾害等原因,被迫或不得不逃离家园或惯常居住地,且未跨越国际边境的个人或群体。 全球境内流离失所数据库追踪两项核心指标:一是“流离失所人口”或年末流离失所总存量(Stock)数据,即年末处于流离失所状态的总人口数;二是“新增流离事件”,统计新增流离事件的数量(人口流动量,Flow)而非流离失所者个体数,以此纳入同一人员多次流离失所的情况。本数据集是理解全球境内流离失所长期趋势与经过验证的统计数据的重要资源。如需获取详细信息与完整API规范,建议用户查阅官方文档:https://www.internal-displacement.org/database/api-documentation/。 “境内流离失所者——IDPs”指截至每年年末处于流离失所状态的人口数量。 “境内流离失所(新增流离事件)”指记录在案的新增流离事件数量,而非流离失所者个体数,原因在于同一人员可能多次经历流离失所。 本数据集的每一行均代表国家级汇总数据。时间覆盖范围由`start_date`(开始日期)、`end_date`(结束日期)字段标识。地理覆盖范围:**几内亚(GIN)**。 *本数据集经[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为机器学习可用的Parquet格式。* --- ## 数据集特征 | | | |---|---| | **领域** | 冲突与安全 | | **观测单元** | 国家级汇总数据 | | **总样本行数** | 20 | | **字段数** | 22(9个数值型字段、11个分类型字段、2个日期时间型字段) | | **训练集样本数** | 16 | | **测试集样本数** | 4 | | **地理覆盖范围** | 几内亚(GIN) | | **发布方** | 国内流离失所监测中心(IDMC) | | **HDX最后更新时间** | 2026-03-18 | --- ## 字段说明 **地理类字段**:`iso3`(国家代码,GIN)、`country_name`(国家名称,几内亚)、`year`(年份,范围2011.0–2024.0)、`start_date_accuracy`(开始日期精度:日、周、月)、`end_date_accuracy`(结束日期精度:日、周、月)等共11个附加字段。 **时间类字段**:`start_date`(开始日期)、`end_date`(结束日期)。 **标识符/元数据字段**:`event_name`(事件名称,示例:几内亚:洪水 - 2011/01/01、锡吉里省洪水、几内亚:野火 - 恩泽雷科雷(洛拉/博托罗/盖阿索)- 2024/02/27)、`event_codes`(事件代码,示例:FL-2017-000083-GIN、FL-2021-000135-GIN、FL-2022-000305-GIN)、`esa_source`(数据源,HDX)、`esa_processed`(处理标记)。 --- ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-idmc-idp-data-gin") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 字段结构 | 字段名 | 数据类型 | 空值占比 | 取值范围/示例值 | |---|---|---|---| | `iso3` | 字符串(object) | 0.0% | GIN | | `country_name` | 字符串(object) | 0.0% | 几内亚 | | `year` | 整型(int64) | 0.0% | 2011.0 – 2024.0(均值2018.2) | | `start_date` | 日期时间型(datetime64[ns]) | 0.0% | | | `start_date_accuracy` | 字符串(object) | 0.0% | 日、周、月 | | `end_date` | 日期时间型(datetime64[ns]) | 5.0% | | | `end_date_accuracy` | 字符串(object) | 5.0% | 日、周、月 | | `event_name` | 字符串(object) | 0.0% | 几内亚:洪水 - 2011/01/01、锡吉里省洪水、几内亚:野火 - 恩泽雷科雷(洛拉/博托罗/盖阿索)- 2024/02/27 | | `hazard_category` | 整型(int64) | 0.0% | 2.0 – 2.0(均值2.0) | | `hazard_category_name` | 字符串(object) | 0.0% | 气象相关灾害 | | `hazard_sub_category` | 整型(int64) | 0.0% | 2.0 – 4.0(均值3.05) | | `hazard_sub_category_name` | 字符串(object) | 0.0% | 水文、气象、气候相关灾害 | | `hazard_type` | 整型(int64) | 0.0% | 9.0 – 14.0(均值10.6) | | `hazard_type_name` | 字符串(object) | 0.0% | 洪水、风暴、山体滑坡 | | `hazard_sub_type` | 整型(int64) | 0.0% | 11.0 – 21.0(均值14.2) | | `new_displacement` | 整型(int64) | 0.0% | 18.0 – 34861.0(均值4464.0) | | `new_displacement_rounded` | 整型(int64) | 0.0% | 18.0 – 35000.0(均值4493.95) | | `total_displacement` | 浮点型(float64) | 60.0% | 18.0 – 5000.0(均值1616.125) | | `total_displacement_rounded` | 浮点型(float64) | 60.0% | 18.0 – 5000.0(均值1624.75) | | `event_codes` | 字符串(object) | 80.0% | FL-2017-000083-GIN、FL-2021-000135-GIN、FL-2022-000305-GIN | | `esa_source` | 字符串(object) | 0.0% | HDX | | `esa_processed` | 字符串(object) | 0.0% | | --- ## 数值型字段统计摘要 | 字段名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `year` | 2011.0 | 2024.0 | 2018.2 | 2018.0 | | `hazard_category` | 2.0 | 2.0 | 2.0 | 2.0 | | `hazard_sub_category` | 2.0 | 4.0 | 3.05 | 3.0 | | `hazard_type` | 9.0 | 14.0 | 10.6 | 10.0 | | `hazard_sub_type` | 11.0 | 21.0 | 14.2 | 13.0 | | `new_displacement` | 18.0 | 34861.0 | 4464.0 | 559.0 | | `new_displacement_rounded` | 18.0 | 35000.0 | 4493.95 | 560.0 | | `total_displacement` | 18.0 | 5000.0 | 1616.125 | 1193.5 | | `total_displacement_rounded` | 18.0 | 5000.0 | 1624.75 | 1200.0 | --- ## 数据整理流程 原始数据通过CKAN API从HDX下载,并转换为Parquet格式。字段名称统一转换为小写蛇形命名法。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。删除1个缺失值占比超过80%的字段:`hazard_subtype_name`。基于解析成功率(阈值>85%)将2个字段从字符串类型转换为数值型或日期时间型。使用固定随机种子(42)将数据集按80/20划分为训练集与测试集,并保存为Snappy压缩的Parquet格式。 --- ## 数据集局限性 - 数据源自国内流离失所监测中心(IDMC),未经过Electric Sheep Africa的独立验证。 - 自动化清洗无法修正原始数据收集阶段的错报值、定义不一致或抽样偏差问题。 - 以下字段的缺失值占比超过20%,在建模时需谨慎使用:`total_displacement`、`total_displacement_rounded`、`event_codes`。 - 如需了解发布方的方法论说明与免责条款,请参阅[原始HDX数据集页面](https://data.humdata.org/dataset/idmc-idp-data-gin)。 --- ## 引用格式 bibtex @dataset{hdx_africa_idmc_idp_data_gin, title = {几内亚——境内流离失所(新增流离事件)——境内流离失所者}, author = {国内流离失所监测中心(Internal Displacement Monitoring Centre, IDMC)}, year = {2026}, url = {https://data.humdata.org/dataset/idmc-idp-data-gin}, note = {经Electric Sheep Africa(https://huggingface.co/electricsheepafrica)重新打包以适配机器学习任务} } --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在非洲人道主义数据领域,该数据集的构建源于内部流离失所监测中心(IDMC)维护的全球内部流离失所数据库(GIDD)。原始数据通过CKAN API从人道主义数据交换平台(HDX)获取,随后经过系统性的数据清洗与标准化处理。具体步骤包括将列名转换为小写蛇形命名,统一缺失值标记为NaN,并依据解析成功率将字符串列转换为数值或日期时间类型。最终,数据以Snappy压缩的Parquet格式保存,并按照80/20的比例划分为训练集与测试集,确保了机器学习任务的直接可用性。
使用方法
在应用层面,该数据集专为表格分类任务设计,用户可通过Hugging Face的datasets库便捷加载。使用load_dataset函数调用相应标识符后,数据可直接转换为Pandas DataFrame进行后续分析。鉴于部分列存在较高缺失率,如总流离失所人数及相关事件代码,建模时需谨慎处理这些变量。研究者可借助该数据探索流离失所事件的时空模式、灾害类型的影响,或构建预测模型,但需参考IDMC的原始方法论说明以理解数据局限性。
背景与挑战
背景概述
该数据集聚焦于几内亚国内流离失所者(IDPs)的新增流离失所事件,隶属于人道主义与冲突安全研究领域。数据集由内部流离失所监测中心(IDMC)创建并维护,其核心研究问题在于量化与追踪因自然灾害、武装冲突等因素引发的国内人口流离失所动态。IDMC依据1998年《关于国内流离失所问题的指导原则》定义流离失所者,通过其全球内部流离失所数据库(GIDD)系统性地收集与验证年度数据。该数据集作为GIDD的子集,提供了2011年至2024年间几内亚国家层面的聚合数据,旨在为政策制定者、研究人员及人道主义组织提供精确的流离失所趋势分析依据,从而支持有效的干预与资源分配策略。
当前挑战
该数据集旨在解决国内流离失所现象的量化与模式识别挑战,其核心任务可归类为表格分类或回归预测问题,例如基于灾害类型、时间等特征预测新增流离失所规模。然而,构建与运用此类数据集面临多重挑战:在领域层面,流离失所数据的收集常受限于动荡环境下的信息可及性,且同一人在一年内可能经历多次流离失所,使得以“事件”而非“个人”为单位的统计方式虽能避免重复计数,却可能模糊个体层面的真实影响。在构建过程中,原始数据存在显著的数据缺失问题,例如`total_displacement`等关键变量的缺失率超过60%,且日期精度存在“日、周、月”等多级差异,这为时间序列分析带来不确定性。此外,数据主要源于官方报告与估算,可能隐含报告偏差或定义不一致性,自动化清洗流程难以修正此类根本性的方法论局限。
常用场景
经典使用场景
在灾害与冲突研究领域,该数据集为分析几内亚国内流离失所现象提供了结构化数据支撑。其经典应用场景在于利用时间序列与灾害分类变量,揭示自然灾害(如洪水、风暴)如何驱动人口流动的时空模式。研究者可基于年度新流离失所事件数据,构建回归或分类模型,量化不同灾害类型对人口迁移规模的影响,从而深化对脆弱地区人道主义危机的理解。
解决学术问题
该数据集有效应对了流离失所研究中数据颗粒度不足与标准化缺失的挑战。通过整合官方验证的年度流离失所事件记录,它使学者能够精确追踪灾害诱因与人口流动的关联性,解决了以往依赖估算或非系统化数据导致的因果推断困难。其标准化字段设计支持跨区域比较研究,为探索气候脆弱性与社会韧性之间的理论框架提供了实证基础。
实际应用
在实际操作层面,该数据集被广泛应用于人道主义援助规划与风险评估。国际组织与地方政府可依据新流离失所事件的时空分布,优化应急资源调配,例如在洪水高发季节预先部署避难所与医疗物资。同时,保险与金融机构利用这些数据建模灾害损失,开发针对流离失所人群的社会保护产品,增强社区在气候冲击下的恢复能力。
数据集最近研究
最新研究方向
在非洲人道主义数据科学领域,几内亚国内流离失所者数据集正成为气候灾害与人口流动交叉研究的前沿焦点。随着全球气候变化加剧,极端天气事件频发,该数据集通过记录洪水、风暴等灾害引发的新增流离失所案例,为构建灾害预警与韧性社区模型提供了关键时序特征。研究者正探索融合卫星遥感数据与机器学习方法,以预测不同气候情景下的流离失所风险,助力人道援助资源的动态优化配置。此类研究不仅深化了对西非地区气候脆弱性的理解,更推动了人道行动从响应式向预见性模式的转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作