electricsheepafrica/africa-education-all
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-education-all
下载链接
链接失效反馈官方服务:
资源简介:
基于V-Dem Institute的专家评估和指数,该数据集结合了关于公民在多样化组织中活跃程度的信息,这些组织选择并影响政策制定者。数据范围从0到1(最活跃)。数据集中的每一行代表表格记录,最后更新于2023年1月23日。地理范围包括贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非和其他4个国家。数据集由Electric Sheep Africa整理为适合机器学习的Parquet格式。
annotations_creators:
- 无标注
language_creators:
- 采集自现有数据
language:
- 英语
license: cc-by-4.0
multilinguality:
- 单语言
size_categories:
- 1000 < 样本量 < 10000
source_datasets:
- 原始数据集
task_categories:
- 表格回归
task_ids: []
tags:
- 非洲
- 人道主义
- HDX(HDX)
- Electric Sheep Africa(Electric Sheep Africa)
- 公民价值观教育
- 民主文化
- 贝宁
- 博茨瓦纳
- 佛得角
- 埃塞俄比亚
- 肯尼亚
pretty_name: "2021年公民社会参与度数据集"
---
# 2021年公民社会参与度数据集
**发布方:** V-Dem研究所(V-Dem Institute) · **数据来源:** [OpenAfrica](https://open.africa/dataset/civic-society-participation-2021) · **授权协议:** `cc-by` · **最后更新时间:** 2023-01-23
---
## 摘要
本数据集基于V-Dem研究所的专家评估与指数构建,整合了公民参与各类选择并影响政策制定者的组织的活跃程度相关信息,取值范围为0至1(1代表参与度最高)。
本数据集的每一行均为一条表格记录。数据最后于2023年1月23日在OpenAfrica平台更新。地理覆盖范围:**贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非及另外4个国家**。
*本数据集由Electric Sheep Africa(Electric Sheep Africa)整理为机器学习可用的Parquet格式(Parquet)。*
---
## 数据集特征
| | |
|---|---|
| **研究领域** | 教育 |
| **观测单元** | 表格记录 |
| **总记录数** | 1476条 |
| **字段数** | 7个(4个数值型、3个分类型、0个日期时间型) |
| **训练集划分** | 1180条记录 |
| **测试集划分** | 295条记录 |
| **地理覆盖范围** | 贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非及另外4个国家 |
| **发布方** | V-Dem研究所 |
| **OpenAfrica平台最后更新时间** | 2023-01-23 |
---
## 变量说明
**地理相关字段** — `civic_society_participation_1900_2021`(覆盖埃塞俄比亚、苏丹、贝宁)。
**标识符与元数据字段** — `unnamed_1`(取值范围1789.0–2021.0)、`unnamed_2`(取值范围0.035–0.952)、`unnamed_3`(取值范围0.012–0.852)、`unnamed_4`(取值范围0.106–0.984)、`esa_source`(来源为HDX)及另外1个字段。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-education-all")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据结构
| 字段名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `civic_society_participation_1900_2021` | 对象型(object) | 0.1% | 埃塞俄比亚、苏丹、贝宁 |
| `unnamed_1` | 浮点型(float64) | 0.1% | 1789.0 – 2021.0(平均值 1948.6377) |
| `unnamed_2` | 浮点型(float64) | 0.1% | 0.035 – 0.952(平均值 0.3752) |
| `unnamed_3` | 浮点型(float64) | 0.1% | 0.012 – 0.852(平均值 0.2509) |
| `unnamed_4` | 浮点型(float64) | 0.1% | 0.106 – 0.984(平均值 0.5228) |
| `esa_source` | 对象型(object) | 0.0% | HDX |
| `esa_processed` | 对象型(object) | 0.0% | 2026-04-28 |
---
## 数值统计摘要
| 字段名 | 最小值 | 最大值 | 平均值 | 中位数 |
|---|---|---|---|---|
| `unnamed_1` | 1789.0 | 2021.0 | 1948.6377 | 1954.5 |
| `unnamed_2` | 0.035 | 0.952 | 0.3752 | 0.325 |
| `unnamed_3` | 0.012 | 0.852 | 0.2509 | 0.169 |
| `unnamed_4` | 0.106 | 0.984 | 0.5228 | 0.525 |
---
## 数据整理流程
原始数据通过CKAN API(CKAN API)从OpenAfrica平台下载,并转换为Parquet格式。字段名统一转换为小写并采用蛇形命名法(snake_case)进行标准化。将常见的缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)统一替换为`NaN`。基于解析成功率(阈值>85%),将4个字段从字符串类型转换为数值型或日期时间型。本数据集采用固定随机种子(42)按80/20的比例划分为训练集与测试集,并以Snappy压缩的Parquet格式存储。
---
## 局限性说明
- 本数据集源自V-Dem研究所,未经过Electric Sheep Africa的独立验证。
- 自动化清洗流程无法修正原始数据收集中的错报值、定义不一致或采样偏差问题。
- 本数据集覆盖12个国家,各国间的地理与方法学差异可能影响跨国比较的合理性。
- 请参阅[原始HDX数据集页面](https://open.africa/dataset/civic-society-participation-2021)获取发布方提供的方法学说明与免责声明。
---
## 引用格式
bibtex
@dataset{openafrica_africa_education_all,
title = {Civic Society Participation, 2021},
author = {V-Dem Institute},
year = {2023},
url = {https://open.africa/dataset/civic-society-participation-2021},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica) — 非洲的机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica



