electricsheepafrica/africa-membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含摩洛哥王国众议院成员在2007-2011、2011-2016、2016-2021和2021-2026四个立法期间的数据。数据来源于议会目录、2011年议会选举获胜候选人名单、宪法委员会裁决以及其他补充来源。数据集中的每一行代表一个一级行政单位的观察结果,时间覆盖范围由`dateentree`和`datesortie`列表示。地理范围涵盖非洲多个国家。数据集包含23列(7个数值列,14个分类列,2个日期时间列),总行数为1,654行,其中训练集1,323行,测试集330行。数据集由TAFRA发布,Electric Sheep Africa整理为适合机器学习的Parquet格式。
annotations_creators:
- 无注释
language_creators:
- 公开获取
language:
- 英语
license: cc-by-4.0
multilinguality:
- 单语言
size_categories:
- 1000<n<10000
source_datasets:
- 原创数据集
task_categories:
- 表格分类(tabular-classification)
- 表格回归(tabular-regression)
task_ids: []
tags:
- 非洲(africa)
- 人道主义(humanitarian)
- HDX(HDX)
- electric-sheep-africa
- 摩洛哥(morocco)
- 议会(parliament)
- 政治(politics)
- 议会议员(members-of-parliament)
pretty_name: "摩洛哥众议院议员"
dataset_info:
splits:
- 名称: 训练集(train)
样本数量: 1323
- 名称: 测试集(test)
样本数量: 330
# 摩洛哥众议院议员
**发布方**:TAFRA · **数据源**:[OpenAfrica](https://open.africa/dataset/membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021) · **许可协议**:`cc-by` · **更新时间**:2024-02-05
---
## 摘要
本数据集收录摩洛哥王国2007-2011、2011-2016、2016-2021及2021-2026届众议院议员相关数据。数据采集自2007-2011与2011-2016届议会的议会名录、美国国家民主研究所(National Democracy Institute)公布的2011年议会选举获胜候选人名单,并辅以宪法委员会(Constitutional Council)裁决及一系列补充来源完成补全。2016-2021届议会的数据拷贝自官方网站http://www.chambredesrepresentants.ma;2021-2026届议会的数据则拷贝自http://www.elections.ma与http://www.chambredesrepresentants.ma,并通过宪法法院裁决及精选补充来源完成补全。数据集中的`parti`列记录了各议员在对应议会中首次登记的政党,未记录议员在同一会期内的政党变更情况。
本数据集的每一行代表一级行政单元的观测记录,时间范围由`dateentree`(就职日期)、`datesortie`(卸任日期)列标注,地理覆盖范围:**非洲(多国)**。
*由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为机器学习可用的Parquet格式(Parquet)。*
---
## 数据集特征
| | |
|---|---|
| **领域** | 人道主义与发展数据 |
| **观测单元** | 一级行政单元观测样本 |
| **总样本量** | 1654条 |
| **字段数** | 23个(7个数值型、14个分类型、2个日期型) |
| **训练集样本量** | 1323条 |
| **测试集样本量** | 330条 |
| **地理覆盖范围** | 非洲(多国) |
| **发布方** | TAFRA |
| **OpenAfrica最后更新时间** | 2024-02-05
---
## 字段说明
**地理类** — `idregion`(区域ID,取值范围606.0–634.0)、`idwilaya`(省ID,取值范围2.0–30.0)、`region`(大区:卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉)、`wilaya`(省份:卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉)。
**时间类** — `dateentree`(就职日期)、`datesortie`(卸任日期)。
**人口统计类** — `idperson`(人员ID,取值范围68069.0–155912.0)。
**标识符/元数据类** — `idprefprov`(省府/省份ID,取值范围171.0–323.0)、`idcirconscription`(选区ID,取值范围416.0–44392.0)、`prefprov`(省府/省份:卡萨布兰卡、马拉喀什、萨累)、`idsiege`(席位ID,取值范围1.0–1115.0)、`esa_source`(数据源)及其他1个字段。
**其他类** — `circonscription`(选区:全国名单、贝尼迈拉勒、塞塔特)、`parlement`(议会届次:2011-2016、2016-2021、2021-2026)、`prenomnom`(姓名:MOHAMED KARIM、ABDELHAQ CHAFIQ、MOHAMED BERNICHI)、`prenomnomar`(阿拉伯语姓名:محمد برنيشي、عبد الحق الشفيق、محمد كاريم)、`femme`(性别标识,取值范围0.0–1.0)及其他5个字段。
---
## 快速上手
python
from datasets import load_dataset
ds = load_dataset("electricsheepafrica/africa-membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021")
train = ds["train"].to_pandas()
test = ds["test"].to_pandas()
print(train.shape)
train.head()
---
## 数据结构
| 字段名 | 数据类型 | 缺失率 | 取值范围/示例值 |
|---|---|---|---|
| `idregion` | float64 | 13.2% | 606.0 – 634.0(均值620.789) |
| `idwilaya` | float64 | 18.6% | 2.0 – 30.0(均值16.3447) |
| `idprefprov` | float64 | 18.6% | 171.0 – 323.0(均值264.4666) |
| `idcirconscription` | int64 | 0.0% | 416.0 – 44392.0(均值2930.1391) |
| `region` | object | 13.2% | 卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉 |
| `wilaya` | object | 18.6% | 卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉 |
| `prefprov` | object | 18.6% | 卡萨布兰卡、马拉喀什、萨累 |
| `circonscription` | object | 0.0% | 全国名单、贝尼迈拉勒、塞塔特 |
| `parlement` | object | 0.0% | 2011-2016、2016-2021、2021-2026 |
| `idsiege` | int64 | 0.0% | 1.0 – 1115.0(均值551.4607) |
| `idperson` | int64 | 0.0% | 68069.0 – 155912.0(均值83331.1475) |
| `prenomnom` | object | 0.0% | MOHAMED KARIM、ABDELHAQ CHAFIQ、MOHAMED BERNICHI |
| `prenomnomar` | object | 0.0% | محمد برنيشي、عبد الحق الشفيق、محمد كاريم |
| `femme` | int64 | 0.0% | 0.0 – 1.0(均值0.1729) |
| `parti` | object | 0.0% | PJD、PAM、PI |
| `dateentree` | datetime64[ns] | 0.0% | |
| `datesortie` | datetime64[ns] | 23.7% | |
| `motifentree` | object | 0.0% | 当选、替补议员、临时当选 |
| `motifsortie` | object | 23.7% | 任期结束、不合规、选举舞弊 |
| `groupe` | object | 20.4% | |
| `groupear` | object | 20.4% | |
| `esa_source` | object | 0.0% | |
| `esa_processed` | object | 0.0% | |
---
## 数值型字段统计摘要
| 字段名 | 最小值 | 最大值 | 均值 | 中位数 |
|---|---|---|---|---|
| `idregion` | 606.0 | 634.0 | 620.789 | 623.0 |
| `idwilaya` | 2.0 | 30.0 | 16.3447 | 19.0 |
| `idprefprov` | 171.0 | 323.0 | 264.4666 | 270.0 |
| `idcirconscription` | 416.0 | 44392.0 | 2930.1391 | 556.0 |
| `idsiege` | 1.0 | 1115.0 | 551.4607 | 542.0 |
| `idperson` | 68069.0 | 155912.0 | 83331.1475 | 68654.5 |
| `femme` | 0.0 | 1.0 | 0.1729 | 0.0 |
---
## 数据整理流程
原始数据通过CKAN API(CKAN API)从OpenAfrica下载并转换为Parquet格式(Parquet)。字段名统一转为小写并标准化为蛇形命名法。常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)被统一替换为`NaN`。移除了3个缺失值占比超过80%的字段:`idsouspref`、`souspref`、`procedureremplacement`。根据解析成功率(阈值85%),将2个字段从字符串类型转换为数值型或日期型。使用固定随机种子(42)将数据集按80/20划分为训练集与测试集,并保存为Snappy压缩的Parquet格式(Parquet)。
---
## 数据局限性
- 数据源自TAFRA,未经过Electric Sheep Africa的独立验证。
- 自动化清洗无法修正原始数据收集中的错报、定义不一致或采样偏差问题。
- 以下字段缺失值占比超过20%,在建模时需谨慎使用:`datesortie`、`motifsortie`、`groupe`、`groupear`。
- 请参阅[原始HDX数据集页面](https://open.africa/dataset/membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021)查看发布方的方法说明与免责条款。
---
## 引用格式
bibtex
@dataset{openafrica_africa_membres_de_la_chambre_des_representants_du_maroc_2007_2011_2016_2021,
title = {摩洛哥众议院议员},
author = {TAFRA},
year = {2024},
url = {https://open.africa/dataset/membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021},
note = {由Electric Sheep Africa (https://huggingface.co/electricsheepafrica) 重新打包以适配机器学习场景}
}
---
*[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica



