electricsheepafrica/africa-protection-all
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-protection-all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为平等权利保护(1789-2021),主要记录了各国在不同年份对跨社会群体的权利和自由平等保护程度的最佳估计。指数范围从0到1(最平等)。数据集包含表格记录,涵盖了贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚等多个非洲国家。数据集最后更新于2023年1月27日,由Electric Sheep Africa整理为适合机器学习的Parquet格式。数据集包含1181个训练样本和295个测试样本,共有5列(2个数值型,3个类别型)。数据来源于V-Dem Institute,并通过OpenAfrica发布。
### 数据集元数据
注释创建者:无注释
语言采集方式:现有资源采集
语言:英语
许可证:CC BY 4.0
多语言属性:单语言
数据规模:1000 < 样本数 < 10000
源数据集类型:原创数据集
任务类别:表格回归(tabular-regression)
任务子项:无
标签:非洲、人道主义、HDX(HDX)、Electric Sheep Africa(Electric Sheep Africa)、反对一切形式歧视、边缘社会群体代表性、贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚
数据集显示名称:“平等权利保护(1789 – 2021)”
数据集信息:
数据集划分:
- 训练集(train):1181条样本
- 测试集(test):295条样本
# 平等权利保护(1789 – 2021)
**发布方:** V-Dem研究所(V-Dem Institute) · **数据源:** [OpenAfrica](https://open.africa/dataset/equal-rights-protection-1789-2021) · **许可证:** `cc-by` · **更新时间:** 2023-01-27
---
## 摘要
“平等权利”变量为对国家平等保护各社会群体权利与自由程度的最优估计值。该指数取值范围为0至1(1代表完全平等)。
本数据集每行均为表格记录。数据最后于2023年1月27日在OpenAfrica平台更新。地理覆盖范围:**贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非,以及另外4个国家**。
*本数据集已由[Electric Sheep Africa(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica)整理为适用于机器学习的Parquet格式(Parquet)。*
---
## 数据集特征
| 指标 | 详情 |
|---|---|
| **领域** | 人道主义与发展数据 |
| **观测单元** | 表格记录 |
| **总行数** | 1477 |
| **列数** | 5(2个数值型、3个分类型、0个日期时间型) |
| **训练集划分** | 1181行 |
| **测试集划分** | 295行 |
| **地理覆盖范围** | 贝宁、博茨瓦纳、佛得角、埃塞俄比亚、肯尼亚、尼日利亚、塞内加尔、南非,以及另外4个国家 |
| **发布方** | V-Dem研究所(V-Dem Institute) |
| **OpenAfrica最后更新时间** | 2023-01-27 |
---
## 变量说明
**标识符与元数据** —— `unnamed_1`(取值范围1789.0–2021.0)、`unnamed_2`(取值范围0.016–0.903)、`esa_source`(HDX(HDX))、`esa_processed`(2026-04-28)。
**其他变量** —— `equal_rights_protection_1789_2021`(覆盖埃塞俄比亚、苏丹、贝宁)。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-protection-all")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据架构
| 列名 | 数据类型 | 空值占比 | 取值范围/示例值 |
|---|---|---|---|
| `equal_rights_protection_1789_2021` | 字符串型(object) | 0.1% | 埃塞俄比亚、苏丹、贝宁 |
| `unnamed_1` | 浮点型(float64) | 0.2% | 1789.0 – 2021.0(均值1948.6377) |
| `unnamed_2` | 浮点型(float64) | 0.2% | 0.016 – 0.903(均值0.3458) |
| `esa_source` | 字符串型(object) | 0.0% | HDX(HDX) |
| `esa_processed` | 字符串型(object) | 0.0% | 2026-04-28 |
---
## 数值型变量统计摘要
| 列名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `unnamed_1` | 1789.0 | 2021.0 | 1948.6377 | 1954.5 |
| `unnamed_2` | 0.016 | 0.903 | 0.3458 | 0.306 |
---
## 数据整理流程
原始数据通过CKAN API(CKAN API)从OpenAfrica平台下载,并转换为Parquet格式(Parquet)。列名统一转换为小写并标准化为蛇形命名法(snake_case)。常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)均被统一替换为`NaN`。基于解析成功率(阈值>85%),将2列从字符串类型转换为数值型或日期时间型。本数据集以固定随机种子(42)按80/20比例划分为训练集与测试集,并保存为Snappy(Snappy)压缩的Parquet格式(Parquet)。
---
## 数据局限性
- 数据源自V-Dem研究所(V-Dem Institute),未由Electric Sheep Africa(Electric Sheep Africa)进行独立验证。
- 自动化清洗无法修正原始数据收集中的错报值、定义不一致或抽样偏差问题。
- 本数据集覆盖12个国家,各国间的地理与方法学差异可能影响跨国可比性。
- 请参阅[原始HDX数据集页面](https://open.africa/dataset/equal-rights-protection-1789-2021)查看发布方提供的方法说明与注意事项。
---
## 引用格式
bibtex
@dataset{openafrica_africa_protection_all,
title = {Equal rights protection (1789 – 2021)},
author = {V-Dem Institute},
year = {2023},
url = {https://open.africa/dataset/equal-rights-protection-1789-2021},
note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)}
}
---
*[Electric Sheep Africa(Electric Sheep Africa)](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica



