five

2024年欧洲议会政治人物数据集

收藏
arXiv2025-06-13 更新2025-06-17 收录
下载链接:
https://github.com/dess-mannheim/european_parliament_simulation
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由曼海姆大学和科隆莱布尼茨社会科学研究所的研究团队收集,包含了2024年欧洲议会的1688次投票信息。数据集旨在研究大型语言模型在模拟欧洲议会成员投票行为方面的能力。数据集收集了与投票相关的提案、辩论内容以及每位议员的个人资料,包括其国籍、所属的欧洲政治集团和国内政党。研究团队使用不同的大型语言模型进行模拟投票,并评估了不同模型、人格提示和生成方法的预测效果。数据集的创建过程涉及从多个公开渠道收集数据,并对数据进行清洗和整合。本数据集的应用领域为政治科学和自然语言处理,旨在解决如何更准确地模拟政治人物投票行为的问题。

This dataset was collected by a research team from the University of Mannheim and the Leibniz Institute for Social Sciences, Cologne. It contains information on 1,688 votes held in the European Parliament in 2024. The dataset is designed to investigate the capabilities of large language models (LLMs) in simulating the voting behaviors of Members of the European Parliament (MEPs). It includes voting-related proposals, debate transcripts, and personal profiles of each MEP, covering their nationality, affiliated European political group, and national political party. The research team carried out simulated voting experiments using various LLMs, and evaluated the predictive performance of different models, personality prompts, and generation methods. The dataset creation process involved collecting data from multiple public sources, followed by data cleaning and integration. This dataset is applied in the fields of political science and natural language processing, aiming to solve the problem of how to more accurately simulate the voting behaviors of political figures.
提供机构:
曼海姆大学, 科隆莱布尼茨社会科学研究所
创建时间:
2025-06-13
原始信息汇总

European Parliament Simulation 数据集概述

数据集来源

  • 数据来源于HowTheyVote项目提供的唱名投票数据(roll call vote data)和欧洲议会议员(MEP)数据
  • 原始数据地址:https://github.com/HowTheyVote/data/tree/main

数据集用途

  • 用于论文《Persona-driven Simulation of Voting Behavior in the European Parliament with Large Language Models》研究
  • 主要研究欧洲议会中基于人物特征的投票行为模拟

数据特征

  • 包含欧洲议会议员的投票记录数据
  • 包含议员个人特征属性:
    • 性别(gender)
    • 年龄(age)
    • 出生地(birthplace)
    • 党派(group)
    • 国家政党(national_party)
    • 国家(country)

使用方法

  • 安装依赖:pip install -r requirements.txt
  • 运行命令示例:python src/main.py --model=meta-llama/Llama-3.1-8B-Instruct

可选参数

参数 描述
--model 用于推理的模型
--output 输出路径
--reasoning 使用的推理类型
--wiki 是否使用维基百科提示
--default_personas 是否使用默认人物特征
--roll_call 是否告知LLM投票是公开的
--counter_speeches 是否向LLM提供反事实演讲
--only_task 是否不提供人物特征作为任务
--attribute_list 使用的特征属性列表
--vote_list 限制的投票列表
--temperature LLM的温度超参数
--opposition 是否告知反对派政治家考虑弃权
--modified_speeches 是否使用正则过滤的演讲

特征属性选项

可用的特征属性包括:[gender, age, birthplace, group, national_party, country]

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合欧洲议会公开的唱名投票记录、政治家维基百科条目及Wikidata信息构建而成。研究团队从2024年第九届欧洲议会1,688次唱名投票中筛选出47项附有新闻稿和独立辩论的关键提案,确保数据具有政策代表性。采用双重验证机制,既收集议员的国家政党隶属关系,又手动核对政党变更信息,构建了包含姓名、性别、年龄、出生地、国家、政党及欧洲议会党团等结构化属性的政治人物档案。
特点
数据集创新性地融合了政治行为模拟与自然语言处理技术,具有三个显著特征:首先,包含47项关键提案的完整投票记录,覆盖环境、数字治理等多政策领域;其次,采用零样本角色提示技术,通过大语言模型模拟议员投票行为,加权F1分数达0.793;最后,数据集特别标注了议员在国家政党与欧洲党团的双重隶属关系,为研究跨国议会政治联盟提供了独特视角。
使用方法
研究者可通过GitHub获取数据集后,采用角色提示技术驱动大语言模型进行政治行为模拟。具体操作包含三个步骤:首先加载政治家属性信息构建角色描述;其次输入提案相关辩论文本作为上下文;最后通过JSON格式指令获取模型生成的投票预测。数据集支持比较不同模型(如Llama3、Qwen)在有无推理链生成情况下的预测效能,并可通过替换反事实辩论文本进行稳健性测试。
背景与挑战
背景概述
2024年欧洲议会政治人物数据集由曼海姆大学和莱布尼茨社会科学研究所的研究团队于2025年创建,旨在利用大语言模型(LLMs)模拟欧洲议会议员的投票行为。该数据集的核心研究问题聚焦于如何通过零样本角色提示(zero-shot persona prompting)准确预测个体议员的投票决策,进而推断欧洲议会各党团对不同政策的立场。数据集包含2024年欧洲议会的47次记名投票记录,涉及环境、社会事务、数字经济等多个政策领域。这一研究不仅推动了计算社会科学与政治学的交叉融合,也为分析LLMs在政治立场模拟中的潜力与局限提供了重要实证基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,需克服LLMs固有的进步左倾偏见,使其能准确模拟政治光谱两端的议员行为(如极左GUE/NGL和极右ID党团),尤其对弃权票(ABSTENTION)的预测准确率仅为6%;在构建层面,数据稀疏性(仅1%的议会演讲持中立立场)与多语言文本的机器翻译偏差影响了提案描述的平衡性,同时议员双重忠诚(国家政党vs欧洲党团)的复杂博弈关系难以通过有限属性(如年龄、国籍)完全捕捉。此外,模型对反事实论据的敏感性暴露了角色扮演的脆弱性——当输入对立观点时,政治立场偏离模型基线的模拟议员更易改变投票倾向。
常用场景
经典使用场景
在政治行为模拟领域,2024年欧洲议会政治人物数据集为研究者提供了丰富的议员投票行为数据。该数据集通过整合欧洲议会议员的个人信息、政党归属及历史投票记录,构建了详尽的议员画像,使得基于大语言模型的政治行为模拟成为可能。研究者可利用该数据集模拟不同政治光谱下议员的决策过程,探究政党纪律与个人立场间的动态平衡。
实际应用
在实际应用中,该数据集为政策影响评估提供了创新工具。政府部门可借助数据集构建虚拟议会系统,预演政策提案通过概率;智库机构能模拟不同政治联盟下的立法动态;媒体则可通过对比模型预测与实际投票,揭示议员投票行为的偏离度。值得注意的是,该方法仅需公开可获取的议员基本信息和辩论内容,显著降低了传统调研方法的实施门槛。
衍生相关工作
该数据集催生了多项延伸研究,包括政治立场偏差量化框架的开发、跨文化语境下的投票行为比较分析等。基于数据集构建的欧洲议会模拟系统已被用于研究联盟政治中的博弈策略,相关成果发表在《欧洲公共政策杂志》等权威期刊。数据集还启发了对美国国会、英国议会等立法机构的类比研究,推动了计算政治学方法论的跨体系验证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作