five

electricsheepafrica/africa-membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含摩洛哥王国众议院成员在2007-2011、2011-2016、2016-2021和2021-2026四个立法期间的数据。数据来源于议会目录、2011年议会选举获胜候选人名单、宪法委员会裁决以及其他补充来源。数据集中的每一行代表一个一级行政单位的观察结果,时间覆盖范围由`dateentree`和`datesortie`列表示。地理范围涵盖非洲多个国家。数据集包含23列(7个数值列,14个分类列,2个日期时间列),总行数为1,654行,其中训练集1,323行,测试集330行。数据集由TAFRA发布,Electric Sheep Africa整理为适合机器学习的Parquet格式。

annotations_creators: - 无注释 language_creators: - 公开获取 language: - 英语 license: cc-by-4.0 multilinguality: - 单语言 size_categories: - 1000<n<10000 source_datasets: - 原创数据集 task_categories: - 表格分类(tabular-classification) - 表格回归(tabular-regression) task_ids: [] tags: - 非洲(africa) - 人道主义(humanitarian) - HDX(HDX) - electric-sheep-africa - 摩洛哥(morocco) - 议会(parliament) - 政治(politics) - 议会议员(members-of-parliament) pretty_name: "摩洛哥众议院议员" dataset_info: splits: - 名称: 训练集(train) 样本数量: 1323 - 名称: 测试集(test) 样本数量: 330 # 摩洛哥众议院议员 **发布方**:TAFRA · **数据源**:[OpenAfrica](https://open.africa/dataset/membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021) · **许可协议**:`cc-by` · **更新时间**:2024-02-05 --- ## 摘要 本数据集收录摩洛哥王国2007-2011、2011-2016、2016-2021及2021-2026届众议院议员相关数据。数据采集自2007-2011与2011-2016届议会的议会名录、美国国家民主研究所(National Democracy Institute)公布的2011年议会选举获胜候选人名单,并辅以宪法委员会(Constitutional Council)裁决及一系列补充来源完成补全。2016-2021届议会的数据拷贝自官方网站http://www.chambredesrepresentants.ma;2021-2026届议会的数据则拷贝自http://www.elections.ma与http://www.chambredesrepresentants.ma,并通过宪法法院裁决及精选补充来源完成补全。数据集中的`parti`列记录了各议员在对应议会中首次登记的政党,未记录议员在同一会期内的政党变更情况。 本数据集的每一行代表一级行政单元的观测记录,时间范围由`dateentree`(就职日期)、`datesortie`(卸任日期)列标注,地理覆盖范围:**非洲(多国)**。 *由[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)整理为机器学习可用的Parquet格式(Parquet)。* --- ## 数据集特征 | | | |---|---| | **领域** | 人道主义与发展数据 | | **观测单元** | 一级行政单元观测样本 | | **总样本量** | 1654条 | | **字段数** | 23个(7个数值型、14个分类型、2个日期型) | | **训练集样本量** | 1323条 | | **测试集样本量** | 330条 | | **地理覆盖范围** | 非洲(多国) | | **发布方** | TAFRA | | **OpenAfrica最后更新时间** | 2024-02-05 --- ## 字段说明 **地理类** — `idregion`(区域ID,取值范围606.0–634.0)、`idwilaya`(省ID,取值范围2.0–30.0)、`region`(大区:卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉)、`wilaya`(省份:卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉)。 **时间类** — `dateentree`(就职日期)、`datesortie`(卸任日期)。 **人口统计类** — `idperson`(人员ID,取值范围68069.0–155912.0)。 **标识符/元数据类** — `idprefprov`(省府/省份ID,取值范围171.0–323.0)、`idcirconscription`(选区ID,取值范围416.0–44392.0)、`prefprov`(省府/省份:卡萨布兰卡、马拉喀什、萨累)、`idsiege`(席位ID,取值范围1.0–1115.0)、`esa_source`(数据源)及其他1个字段。 **其他类** — `circonscription`(选区:全国名单、贝尼迈拉勒、塞塔特)、`parlement`(议会届次:2011-2016、2016-2021、2021-2026)、`prenomnom`(姓名:MOHAMED KARIM、ABDELHAQ CHAFIQ、MOHAMED BERNICHI)、`prenomnomar`(阿拉伯语姓名:محمد برنيشي、عبد الحق الشفيق、محمد كاريم)、`femme`(性别标识,取值范围0.0–1.0)及其他5个字段。 --- ## 快速上手 python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021") train = ds["train"].to_pandas() test = ds["test"].to_pandas() print(train.shape) train.head() --- ## 数据结构 | 字段名 | 数据类型 | 缺失率 | 取值范围/示例值 | |---|---|---|---| | `idregion` | float64 | 13.2% | 606.0 – 634.0(均值620.789) | | `idwilaya` | float64 | 18.6% | 2.0 – 30.0(均值16.3447) | | `idprefprov` | float64 | 18.6% | 171.0 – 323.0(均值264.4666) | | `idcirconscription` | int64 | 0.0% | 416.0 – 44392.0(均值2930.1391) | | `region` | object | 13.2% | 卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉 | | `wilaya` | object | 18.6% | 卡萨布兰卡-塞塔特、东部大区、拉巴特-萨累-盖尼特拉 | | `prefprov` | object | 18.6% | 卡萨布兰卡、马拉喀什、萨累 | | `circonscription` | object | 0.0% | 全国名单、贝尼迈拉勒、塞塔特 | | `parlement` | object | 0.0% | 2011-2016、2016-2021、2021-2026 | | `idsiege` | int64 | 0.0% | 1.0 – 1115.0(均值551.4607) | | `idperson` | int64 | 0.0% | 68069.0 – 155912.0(均值83331.1475) | | `prenomnom` | object | 0.0% | MOHAMED KARIM、ABDELHAQ CHAFIQ、MOHAMED BERNICHI | | `prenomnomar` | object | 0.0% | محمد برنيشي、عبد الحق الشفيق、محمد كاريم | | `femme` | int64 | 0.0% | 0.0 – 1.0(均值0.1729) | | `parti` | object | 0.0% | PJD、PAM、PI | | `dateentree` | datetime64[ns] | 0.0% | | | `datesortie` | datetime64[ns] | 23.7% | | | `motifentree` | object | 0.0% | 当选、替补议员、临时当选 | | `motifsortie` | object | 23.7% | 任期结束、不合规、选举舞弊 | | `groupe` | object | 20.4% | | | `groupear` | object | 20.4% | | | `esa_source` | object | 0.0% | | | `esa_processed` | object | 0.0% | | --- ## 数值型字段统计摘要 | 字段名 | 最小值 | 最大值 | 均值 | 中位数 | |---|---|---|---|---| | `idregion` | 606.0 | 634.0 | 620.789 | 623.0 | | `idwilaya` | 2.0 | 30.0 | 16.3447 | 19.0 | | `idprefprov` | 171.0 | 323.0 | 264.4666 | 270.0 | | `idcirconscription` | 416.0 | 44392.0 | 2930.1391 | 556.0 | | `idsiege` | 1.0 | 1115.0 | 551.4607 | 542.0 | | `idperson` | 68069.0 | 155912.0 | 83331.1475 | 68654.5 | | `femme` | 0.0 | 1.0 | 0.1729 | 0.0 | --- ## 数据整理流程 原始数据通过CKAN API(CKAN API)从OpenAfrica下载并转换为Parquet格式(Parquet)。字段名统一转为小写并标准化为蛇形命名法。常见缺失值标记(`N/A`、`null`、`none`、`-`、`unknown`、`no data`、`#N/A`)被统一替换为`NaN`。移除了3个缺失值占比超过80%的字段:`idsouspref`、`souspref`、`procedureremplacement`。根据解析成功率(阈值85%),将2个字段从字符串类型转换为数值型或日期型。使用固定随机种子(42)将数据集按80/20划分为训练集与测试集,并保存为Snappy压缩的Parquet格式(Parquet)。 --- ## 数据局限性 - 数据源自TAFRA,未经过Electric Sheep Africa的独立验证。 - 自动化清洗无法修正原始数据收集中的错报、定义不一致或采样偏差问题。 - 以下字段缺失值占比超过20%,在建模时需谨慎使用:`datesortie`、`motifsortie`、`groupe`、`groupear`。 - 请参阅[原始HDX数据集页面](https://open.africa/dataset/membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021)查看发布方的方法说明与免责条款。 --- ## 引用格式 bibtex @dataset{openafrica_africa_membres_de_la_chambre_des_representants_du_maroc_2007_2011_2016_2021, title = {摩洛哥众议院议员}, author = {TAFRA}, year = {2024}, url = {https://open.africa/dataset/membres-de-la-chambre-des-representants-du-maroc-2007-2011-2016-2021}, note = {由Electric Sheep Africa (https://huggingface.co/electricsheepafrica) 重新打包以适配机器学习场景} } --- *[Electric Sheep Africa](https://huggingface.co/electricsheepafrica) — 非洲机器学习数据集基础设施。尼日利亚拉各斯。*
提供机构:
electricsheepafrica
二维码
社区交流群
二维码
科研交流群
商业服务