africa-humanitarian-needs-all

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-humanitarian-needs-all

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Freedom of Speech (2005 - 2021)，由Bertelsmann Stiftung发布，通过OpenAfrica平台获取，记录了2005年至2021年间非洲11个国家（包括贝宁、博茨瓦纳、埃塞俄比亚、肯尼亚、尼日利亚等）的言论自由状况。数据集包含93条表格记录，分为74条训练数据和18条测试数据。主要变量Freeexpr_bti采用1-10分制评估个人、团体和媒体免受政府干预表达观点的自由程度（1分表示完全被剥夺，10分表示完全自由）。数据集包含5个字段：2个数值型（unnamed_1表示年份2005-2021，unnamed_2表示分数2.0-10.0）和3个类别型（包括国家名称和处理信息）。数据经过Electric Sheep Africa团队清洗和标准化处理，转换为Parquet格式，适用于表格分类和回归任务。数据集存在一定局限性，包括原始数据未经验证、跨国比较可能存在方法不一致等问题。

创建时间：

2026-04-28

原始信息汇总

数据集概述：Freedom of Speech (2005 - 2021)

基本信息

属性	内容
数据集名称	Freedom of Speech (2005 - 2021)
发布者	Bertelsmann Stiftung
许可证	cc-by-4.0
更新日期	2023-01-26
语言	英语（单语）
领域	人道主义与发展数据
地理范围	贝宁、博茨瓦纳、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非、苏丹等11个国家

数据集描述

该数据集记录了2005年至2021年间各国言论自由程度的评分数据。变量 Freeexpr_bti 反映了个人、团体和媒体在不受政府干预的情况下表达观点的程度。评分范围从1（言论自由被完全否定）到10（言论自由得到充分保障），中间为递进等级。

数据规模与结构

总行数：93行
列数：5列（2个数值型，3个分类型）
训练集：74行
测试集：18行

变量说明

列名	类型	缺失率	说明
`freedom_of_speech_2005_2021`	object（文本）	1.1%	国家名称（如：Benin, Botswana, Ethiopia）
`unnamed_1`	float64	3.2%	年份（范围：2005.0 - 2021.0，均值：2013.0）
`unnamed_2`	float64	3.2%	言论自由评分（范围：2.0 - 10.0，均值：6.1778，中位数：7.0）
`esa_source`	object（文本）	0.0%	数据来源（HDX）
`esa_processed`	object（文本）	0.0%	处理日期（2026-04-28）

数据预处理

原始数据通过CKAN API从OpenAfrica下载并转换为Parquet格式
列名统一为小写蛇形命名法
常见缺失值标记统一为NaN
移除了5个缺失率超过80%的列
2个字符串列基于解析成功率（>85%）转换为数值或日期类型
按80/20比例随机分割为训练集和测试集（固定随机种子42）
保存为Snappy压缩的Parquet文件

使用示例

python from datasets import load_dataset

ds = load_dataset("electricsheepafrica/africa-humanitarian-needs-all") train = ds["train"].to_pandas() test = ds["test"].to_pandas()

局限性

数据来源于Bertelsmann Stiftung，未经Electric Sheep Africa独立验证
自动化清洗无法纠正原始数据中的误报、定义不一致或抽样偏差
数据集涵盖11个国家，不同国家之间的地理和方法论差异可能影响跨国可比性

搜集汇总

数据集介绍

构建方式

该数据集源于贝塔斯曼基金会发布的言论自由指数（Freeexpr_bti），原始数据通过非洲开放数据平台（OpenAfrica）的CKAN API获取。由Electric Sheep Africa团队进行加工，将原始数据转换为Parquet格式以适配机器学习工作流。数据清洗过程包括将列名统一为小写蛇形格式，将常见缺失值标记（如N/A、null、none等）标准化为NaN，剔除缺失比例超过80%的列，并根据解析成功率将字符串列转换为数值或时间类型。最终，数据集以固定随机种子42按80/20比例划分为训练集与测试集，并保存为Snappy压缩的Parquet文件。

特点

该数据集专注于非洲十一国2005年至2021年间的言论自由状况评估，每个观测单元以表格记录呈现，共包含93行数据、5个字段（含2个数值型与3个类别型）。核心变量freedom_of_speech_2005_2021为国家名称，unnamed_1为年份，unnamed_2为言论自由评分（范围2至10，均值约6.18）。数据集覆盖贝宁、博茨瓦纳、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非、苏丹等国家，可同时支持分类与回归任务，且富含跨国家、跨年度的比较分析潜力。

使用方法

用户可通过HuggingFace datasets库直接加载该数据集，调用load_dataset函数即可获取训练集与测试集，并便捷地转换为Pandas DataFrame进行后续分析。数据集的简洁结构与预划分的测试集使其可直接用于监督学习任务的模型训练与评估。在应用时，需注意原始数据由贝塔斯曼基金会发布且未经独立验证，自动化清洗无法修正原始收集中的报告偏差或定义不一致问题，且跨国比较需谨慎对待方法论差异。推荐配合官方HDX页面阅读发布者的方法论注释以获取更全面的理解。

背景与挑战

背景概述

言论自由是衡量社会开放性与民主治理水平的核心指标之一，而非洲大陆因其多元的政治生态与复杂的社会结构，长期成为该领域研究的焦点。由德国贝塔斯曼基金会于2023年发布、并经Electric Sheep Africa整理为机器学习就绪格式的africa-humanitarian-needs-all数据集，聚焦于贝宁、博茨瓦纳、埃塞俄比亚、肯尼亚、尼日利亚等11个非洲国家在2005至2021年间言论自由水平的量化评估。该数据集以“Freeexpr_bti”变量为核心，将政府干预下个体与媒体表达观点的自由程度量化为1至10分的等级体系，为比较政治学、发展经济学及人权研究提供了结构化的跨国面板数据。其发布的独特价值在于，将传统的社会科学调查数据转化为可被机器学习的标准格式，填补了非洲地区言论自由领域高质量、低噪声公开数据集的空白，对推动数据驱动的政策分析与非洲治理研究具有里程碑意义。

当前挑战

该数据集在构建与应用层面面临着多重挑战。首先，在领域问题层面，言论自由指数的量化本身具有主观性，贝塔斯曼基金会的评分标准虽提供了1至10分的分级框架，但中间等级的界定模糊可能引入偏差，且同一指标在不同国家间的文化语境与法律体系差异会导致跨可比性不足，进而影响模型预测的稳健性。其次，在数据构建过程中，原始数据源自OpenAfrica且未经过独立验证，自动化清洗虽统一了缺失值标记与数据类型，却无法纠正原始收集阶段的抽样偏误或定义不一致问题。此外，数据集仅覆盖11个国家共93条记录，样本量极小且时间跨度中存在少量空缺，训练集仅74行，这限制了深度学习模型的适用性，也使得跨年份趋势分析易受异常值干扰。数据集的局限性声明亦指出，地理与方法论的不一致性可能削弱跨国比较结论的可推广性。

常用场景

经典使用场景

该数据集聚焦于非洲十一国2005至2021年间言论自由水平的量化评估，其核心指标源自贝塔斯曼基金会构建的‘自由表达指数’，以1至10分的连续尺度刻画政府干预媒体与个人表达的程度。经典应用场景包括构建监督学习模型以预测各国年度言论自由分数，或通过时序分析揭示非洲地区表达自由在政治转型、社会动荡等关键事件下的演变轨迹。研究者常利用此数据集训练回归或分类模型，探讨经济指标、治理质量与言论自由之间的内在关联，从而为比较政治学与传播学领域的量化研究提供标准化训练样本。

衍生相关工作

围绕此数据集，衍生出一系列具有开创性的交叉研究工作。在方法学层面，Electric Sheep Africa团队重构的Parquet格式推动了‘人文数据科学’在非洲语境下的标准化预处理流程；在实证领域，学者结合该数据集与非洲晴雨表调查数据，构建多层级模型以解析个体感知与国家制度之间的表达自由鸿沟。另有工作将其作为迁移学习源域，通过对比亚洲或拉丁美洲的类似指标，探讨区域间言论自由演化的趋同或分异路径。这些成果共同确立了该数据集在计算社会科学与非洲区域研究中的基准地位。

数据集最近研究