five

politicos

收藏
Hugging Face2025-08-07 更新2025-08-08 收录
下载链接:
https://huggingface.co/datasets/carevies/politicos
下载链接
链接失效反馈
官方服务:
资源简介:
该数据库包含2000年至2025年间5,448个选举职位的数据,包括4,500个众议院席位、750个参议院席位、192个州长职位和6个共和国总统职位。每个条目包括被选人担任的职位、性别、政党、所在州、开始年份和结束年份。数据通过整合不同实体网站上的信息获得,性别信息则是通过语言模型gemma2-9b-it自动推导得出。为了标准化格式、避免重复并确保最大程度的匹配,不完整的名字(只有一个姓氏或名字)通过数据库交叉匹配进行补全,并统一格式化为'父姓' + '母姓' + '名字(s)',删除了多余的空格、重音符号和大写字母。
创建时间:
2025-08-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Élite política de México: diputaciónes, senadurias, gobernaturas y presidencias 2000 a 2025
  • 语言: 西班牙语 (es)
  • 标签: 政治 (politics)
  • 数据规模: 10K<n<100K
  • 创建者: Carlos Villalobos
  • 许可证: 免费 (Free)

数据集内容

  • 记录数量: 5,448个选举职位
    • 4,500个众议院席位
    • 750个参议院席位
    • 192个州长职位
    • 6个总统职位
  • 时间范围: 2000年至2025年

数据结构

  • nombre: 政治人物全名,格式为"父姓 + 母姓 + 名字"
  • cargo: 当选职位
  • estado: 来源和/或代表的州
  • partido: 所属政党
  • anio_inicio: 开始履职年份
  • anio_fin: 预计任期结束年份

数据来源

  • 参议员信息: https://www.senado.gob.mx/informacion/senadores/LXIV_LXV
  • 众议员信息:
    • LX立法机构: https://www.diputados.gob.mx/sistema_legislativo_LX.html
    • LXI立法机构: https://www.diputados.gob.mx/sistema_legislativo_LXI.html
    • LXII立法机构: https://www.diputados.gob.mx/sistema_legislativo_LXII.html
    • LXIII立法机构: https://www.diputados.gob.mx/sistema_legislativo_LXIII.html
    • LXIV立法机构: https://www.diputados.gob.mx/sistema_legislativo_LXIV.html

数据处理

  1. 从会议出席名单中提取数据
  2. 按"父姓 + 母姓 + 名字"排序
  3. 补全不完整的姓名
  4. 手动添加缺失的州信息

局限性

  • "estado"变量在不同立法时期处理方式不同
  • "partido"变量仅反映任职初期的政党归属
  • "anio_inicio"仅包含年份信息
  • "anio_fin"不考虑中途离职情况
  • 部分"anio_fin"数据延伸至2025年

引用方式

Villalobos, C. (2025). Élite política de México: diputaciónes, senadurias, gobernaturas y presidencias 2000 a 2025 [Conjunto de datos]. https://huggingface.co/datasets/carevies/politicos

术语表

  • PRI: 革命制度党
  • PAN: 国家行动党
  • MORENA: 国家复兴运动党
  • PES: 团结党
  • PSD: 社会民主党
  • PAS: 锡那罗亚州党
  • MC: 公民运动党
  • SP: 无党派
  • SG: 无议会党团
搜集汇总
数据集介绍
main_image_url
构建方式
在政治学研究领域,准确记录政治人物任职信息对分析权力结构变迁具有重要意义。politicos数据集通过系统化采集墨西哥2000至2025年间5,448个民选职位数据构建而成,涵盖议员、州长及总统等关键职位。数据采集过程整合了参议院和众议院多个立法周期的官方记录,采用自动化与人工校验相结合的方式:首先从各立法机构网站提取原始名单,继而运用gemma2-9b-it语言模型推断性别信息,并通过跨数据库比对补全姓名格式,最终统一规范为'父姓+母姓+名'的标准形式,确保数据的一致性与完整性。
特点
该数据集在政治人物元数据组织方面展现出显著的专业性。每条记录包含标准化姓名、职位类型、所属州、政党 affiliation以及任期起止年份等结构化字段,特别注重墨西哥政治特有的多党制特征,详细标注了包括PRI、MORENA在内的9个主要政党标识。数据集时间跨度长达25年,完整覆盖墨西哥民主转型关键期,其独特价值在于将分散的地方选举数据与中央级职位信息进行系统整合,为研究政治精英流动提供了难得的纵向分析素材。
使用方法
研究人员可利用该数据集开展多维度的政治学定量分析。通过交叉分析'政党'与'州'字段可探究地区政治版图变迁,结合任期时间序列能追踪政党轮替规律。需注意字段定义的特殊性:'起始年份'统一采用就职年份而忽略具体月份,'结束年份'反映法定任期而非实际离职时间。使用时应结合数据说明文档,特别注意州字段在不同立法周期可能指向选区或籍贯的差异。数据集采用CC-BY许可,引用时需注明原始创建者Villalobos(2025)的学术贡献。
背景与挑战
背景概述
Politicos数据集由Carlos Villalobos于2025年创建,聚焦于墨西哥政治精英的选举职位记录,涵盖2000年至2025年间5448个选举职位,包括4500个众议院席位、750个参议院席位、192个州长职位和6个总统职位。该数据集通过整合墨西哥参议院和众议院官方网站的信息,结合自动化语言模型gemma2-9b-it进行性别推断,旨在为政治科学领域的研究者提供标准化的政治人物数据。其核心研究问题涉及墨西哥政治精英的构成、党派分布及地域代表性,为分析墨西哥政治生态的演变提供了重要数据支持。
当前挑战
Politicos数据集面临多重挑战。在领域问题层面,墨西哥政治生态的复杂性和选举制度的动态变化使得数据的时效性和准确性成为关键挑战,例如党派变更和职位中途更替未被完全捕捉。在构建过程中,数据来源的异构性导致标准化难度增加,特别是州字段的表述在不同立法时期存在差异(代表州与出生州混用)。自动化性别推断可能引入偏差,而人工补全姓名时采用的格式统一化(去除重音、大小写)虽提升了一致性,但可能损失文化特异性信息。时间字段的颗粒度不足(仅精确到年)以及未考虑提前离职的情况,进一步限制了数据对政治任期中断现象的分析能力。
常用场景
经典使用场景
在政治学研究领域,politicos数据集为分析墨西哥政治精英的构成与演变提供了翔实的数据支持。该数据集涵盖了2000年至2025年间5448个选举职位,包括议员、参议员、州长和总统等关键政治角色,为研究者提供了系统考察政治代表性别分布、党派更迭和地域代表性的基础素材。
衍生相关工作
基于该数据集已产生多项重要研究,包括《墨西哥立法机构性别代表研究》等学术论文,以及多个可视化政治权力分布的开源项目。其数据整合方法被借鉴用于构建其他拉美国家的政治人物数据库,促进了区域比较研究的标准化进程。
数据集最近研究
最新研究方向
近年来,politicos数据集在政治科学与计算社会科学领域引发了广泛关注。该数据集囊括了墨西哥2000至2025年间5448个选举职位记录,为研究拉美政治精英流动提供了结构化数据支撑。当前研究主要聚焦于三个方向:基于性别与政党交叉分析的代议制多样性研究,运用时序网络模型追踪政治人物职业生涯轨迹,以及结合自然语言处理技术验证自动化性别分类的伦理边界。特别是在2024年墨西哥大选背景下,学者们正利用该数据集探究执政党更迭对地方政治网络的影响机制,相关成果对理解制度变迁中的精英再生产规律具有重要启示。数据标准化处理过程中采用的Gemma2-9b-it模型自动标注技术,也为政治学领域的机器学习应用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作