EuroParlVote

Name: EuroParlVote
Creator: School of Computing & Information Systems, The University of Melbourne & Mohamed bin Zayed University of Artificial Intelligence, UAE
Published: 2025-09-08 02:23:30
License: 暂无描述

arXiv2025-09-08 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/unimelb-nlp/EuroParlVote

下载链接

链接失效反馈

官方服务：

资源简介：

EuroParlVote是一个用于评估大型语言模型（LLMs）在政治敏感语境中的性能的新颖基准。它将欧洲议会辩论演讲与点名投票结果联系起来，并为每位欧洲议会成员（MEP）提供了丰富的人口统计元数据，如性别、年龄、国家和政治团体。数据集包含约22,000篇欧洲议会辩论演讲，与969个相应的点名投票结果相关联。数据集还丰富了MEP的注释，包括性别、政治团体、年龄和国家等信息，以便进行人口统计敏感的政治分析。数据集旨在支持未来在政治NLP中的公平性和问责制研究。

EuroParlVote is a novel benchmark for evaluating the performance of Large Language Models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote results, and provides rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. The dataset contains approximately 22,000 European Parliament debate speeches associated with 969 corresponding roll-call vote outcomes. It also provides enriched annotations for MEPs including gender, political group, age and country to enable demographically sensitive political analysis. The dataset is intended to support future fairness and accountability research in political natural language processing (NLP).

提供机构：

School of Computing & Information Systems, The University of Melbourne & Mohamed bin Zayed University of Artificial Intelligence, UAE

创建时间：

2025-09-08

原始信息汇总

EuroParlVote 数据集概述

数据集基本信息

数据集名称：EuroParlVote
任务类别：文本分类
具体任务：性别分类、立场检测、投票预测
多语言支持：多语言
支持语言：保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语
许可证：CC BY-NC 4.0
数据规模：10K到100K之间
注释创建方式：专家生成
数据来源：原始数据
领域：政治、公共政策
人口统计：成年人、公众人物
创建者：Jinrui Yang、Xudong Han、Timothy Baldwin
维护者：Jinrui Yang jinruiy@student.unimelb.edu.au

数据集详情

EuroParlVote 将欧洲议会辩论演讲与唱名投票和欧洲议会议员人口统计数据（性别、年龄、国家、政治团体）联系起来，支持多达24种欧盟语言。

主要基准任务

性别分类：从辩论演讲中预测欧洲议会议员的性别
投票预测：根据主题和演讲预测支持/反对投票（可选择包含人口统计背景）

数据集来源

资金支持：墨尔本研究奖学金；LIEF HPC-GPGPU Facility (LE170100200)
共享机构：墨尔本大学

用途

直接用途

基准测试LLM在政治话语中的公平性/偏见
多语言政治文本分类和投票预测
研究人口统计效应（性别、团体）对模型行为的影响

超出范围用途

实时投票预测或影响政治进程
针对个人或团体
虚假信息或骚扰

数据集结构

文件结构

数据集分为训练集、开发集和测试集（约8:1:1比例）

数据列说明

列名	类型	描述
Chapter	float	辩论章节编号
Chapter_ID	string	辩论章节唯一标识符
Act_ID	string	立法法案ID（可能为"MISSING"）
Report_ID	string	议会报告ID
Debate_ID	string	唯一辩论ID + 语言后缀
Vote_ID	int	唯一唱名投票ID
Vote_Description	string	投票主题的英文描述
Vote_Timestamp	string	投票时间戳
Language	string	演讲的ISO语言代码
Speaker	string	演讲者全名
MEP_ID	int	唯一欧洲议会议员标识符
Party	string	党派 affiliation（如果可用）
Role	string	在辩论中的角色（如报告人）
CODICT	int	演讲者唯一代码
Speaker_Type	string	演讲者类型（如欧洲议会议员、主席）
Start_Time	string	开始时间（在此分割中统一）
End_Time	string	结束时间（在此分割中统一）
Title_[XX]	string	语言XX的辩论标题（24种变体）
Speech	string	完整辩论演讲文本
position	string	投票标签：FOR / AGAINST
country_code_x	string	国家代码（原始来源）
group_code	string	政治团体代码（8种可能）
first_name	string	欧洲议会议员名字
last_name	string	欧洲议会议员姓氏
country_code_y	string	国家代码（来自人口统计抓取）
date_of_birth	string	出生日期（YYYY-MM-DD）
email	string	公开的欧洲议会议员邮箱（如果可用）
facebook	string	Facebook个人资料URL（如果可用）
twitter	string	Twitter/X个人资料URL（如果可用）
gender	string	二元标签：MALE / FEMALE

标签分布（开发集分割）

position：FOR和AGAINST在开发集/测试集中平衡
gender：MALE、FEMALE

数据集创建

创建理由

现有的多语言政治数据集很少将实际演讲与现实世界的投票结果和人口统计数据联系起来，这使得公平性和偏见研究变得困难。

来源数据

投票数据来自HowTheyVote.eu
通过投票元数据参考对齐辩论
人口统计数据来自维基百科和官方欧洲议会来源

处理过程

移弃权和缺失主题/演讲
通过代词推断性别并进行人工检查

注释

性别标签通过半自动启发式方法创建，并进行人工验证
投票标签直接来自官方唱名数据

敏感信息

包含公众人物（欧洲议会议员）的姓名、国家、政治团体信息
二元性别标签不能反映所有身份

偏见、风险和限制

二元性别假设
政治团体可能不能完全捕捉意识形态
翻译影响性能；推荐使用原始语言
演讲中的偏见可能反映政治背景，而非个人意识形态

引用信息

bibtex @inproceedings{yang2024europarlvote, title={Demographics and Democracy: Benchmarking LLMs’ Gender Bias and Political Leaning in European Parliament}, author={Yang, Jinrui and Han, Xudong and Baldwin, Timothy}, booktitle={Proceedings of the 8th International Conference on Natural Language and Speech Processing}, year={2025} }

搜集汇总

数据集介绍

构建方式

EuroParlVote数据集通过整合欧洲议会七年间的唱名投票记录与对应辩论演讲构建而成，数据来源于HowTheyVote.eu的公开投票档案，并利用文档索引关联至多语言辩论语料库。每位议员的性别、政治团体、国籍及年龄等人口统计属性通过维基百科和社交媒体信息进行启发式标注，其中性别标注采用代词匹配与人工核查相结合的方法。最终筛选出22,000条有效演讲-投票配对数据，按8:1:1比例划分为训练集、开发集和测试集，其中训练集保留原始类别不平衡分布，开发集与测试集则平衡投票标签以确保评估公正性。

使用方法

该数据集支持两大核心任务：基于辩论演讲的议员性别分类与投票行为预测。研究者可通过提供演讲文本及可选元数据（如政治团体或性别提示），在零样本或微调设置下评估语言模型的性能与偏差。投票预测任务需模型综合演讲内容、议题信息及潜在人口统计线索模拟议员决策，而性别分类任务则要求模型仅依据文本推断演讲者性别。数据集已公开发布于HuggingFace平台，配套代码提供标准化的数据加载、实验流程及评估指标，便于复现与扩展研究。

背景与挑战

背景概述

EuroParlVote数据集由墨尔本大学与穆罕默德·本·扎耶德人工智能大学于2025年联合推出，聚焦欧洲议会政治语料的多维度分析。该数据集整合了22,000条议会辩论演讲与969次记名投票结果，并标注了议员性别、年龄、国籍及政党归属等人口统计信息，覆盖欧盟24种官方语言。其核心研究在于揭示大语言模型在政治语境中的性别与意识形态偏见，为自然语言处理领域的公平性与问责制研究提供了关键实证基础。

当前挑战

该数据集致力于解决政治话语中性别与意识形态偏见的量化评估问题，其构建面临多重挑战：一是需从多语言议会记录中精准对齐演讲与投票数据，并处理高规格政治修辞中的隐含语义；二是需通过启发式规则与人工校验标注议员性别，克服非二元性别与语言文化差异带来的标注复杂性；三是需在设计投票预测与性别分类任务时，规避模型对中心政党或男性语料的固有偏好，确保评估框架的平衡性与可解释性。

常用场景

经典使用场景

EuroParlVote数据集在自然语言处理领域被广泛应用于评估大语言模型在政治敏感语境中的表现，特别是在欧洲议会辩论场景下。研究者通过该数据集分析模型对议员性别分类和投票行为预测的准确性，揭示模型在政治话语中的潜在偏见。

解决学术问题

该数据集有效解决了大语言模型中性别与政治偏见量化评估的学术难题，为多语言环境下模型公平性研究提供了实证基础。其通过链接演讲内容与投票结果，助力识别模型对女性议员和极端政治群体的系统性偏差，推动了计算社会科学与伦理人工智能的交叉研究。

实际应用

在实际应用中，该数据集为政策分析系统提供了测试基准，可用于优化民主决策支持工具。政府部门和智库可借助其评估AI系统在模拟政治决策时的公平性，确保自动化系统在处理多语言政治文本时不会强化现有社会偏见。

数据集最近研究