five

EuroCon

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://zowiezhang.github.io/projects/EuroCon/
下载链接
链接失效反馈
官方服务:
资源简介:
EuroCon是一个由欧洲议会13年(2009年至2022年)内2,225条高质量辩论记录构成的基准,旨在评估大型语言模型(LLMs)在政治共识达成方面的能力。数据集涵盖了第七届和第八届议会的整个任期,以及第九届议会任期的一半。EuroCon结合了四个因素来构建每个模拟议会环境:具体的政治问题、政治目标、参与方以及基于席位分配的权力结构。它还开发了一个评估框架,以模拟不同议会环境下的真实投票结果,评估LLM生成的决议是否达到预定的政治目标。EuroCon作为研究LLMs在寻找政治共识方面的能力的一个有效平台,展现出巨大的潜力。

EuroCon is a benchmark dataset constructed from 2,225 high-quality debate records of the European Parliament spanning 13 years (2009 to 2022), designed to evaluate the capabilities of large language models (LLMs) in reaching political consensus. The dataset covers the full terms of the 7th and 8th European Parliaments, as well as half of the 9th European Parliament’s term. EuroCon integrates four factors to build each simulated parliamentary environment: specific political issues, political objectives, participating parties, and the power structure based on seat allocation. It also develops an evaluation framework to simulate real voting results across different parliamentary environments, and assess whether the resolutions generated by LLMs meet the predetermined political objectives. As an effective platform for studying the capabilities of LLMs in seeking political consensus, EuroCon demonstrates great potential.
提供机构:
北京大学人工智能研究院, 中国科学院自动化研究所通用人工智能实验室, 武汉大学, 上海交通大学, 中关村学院
创建时间:
2025-05-26
搜集汇总
数据集介绍
main_image_url
构建方式
EuroCon数据集基于2009年至2022年间欧洲议会的2,225份高质量审议记录构建,覆盖了第7届、第8届议会完整任期及第9届议会部分任期。数据集通过整合欧洲议会官方网站、HowTheyVote和VoteWatch Europe等多个来源的信息,确保数据的全面性和真实性。具体构建过程中,首先匹配不同来源的议题URL以获取完整的审议五元组信息(议题、主题、辩论、决议和投票),随后采用DeepSeek-R1和基于规则的方法进行数据清洗和后处理,最终形成包含议题背景、政党立场、决议文本和投票结果的六元组结构化数据。
特点
EuroCon的核心特点体现在四个方面:一是真实性,所有数据均源自真实政治场景;二是冲突性,每个政治议题下包含持有不同立场的多个政党;三是多样性,通过随机分配议会席位和设计不同投票机制(简单多数、三分之二多数和否决权),模拟了28,620种议会场景;四是开放性评估框架,基于GPT-4o mini开发了可自动评估LLM生成决议质量的系统。数据集还涵盖5个粗粒度主题和19个细粒度主题,包括经济、产业、预算、安全和公民权利等领域,全面反映政治共识形成的复杂性。
使用方法
使用EuroCon时,首先需根据研究目标选择特定的议会场景配置,包括政治议题、政党数量(2/4/6个)、权力结构(席位分配)和政治目标(通过决议、罗尔斯主义或功利主义)。评估时,将LLM生成的决议输入开放评估框架,系统会模拟各政党议员的投票结果并计算通过率。对于不同任务难度(如三分之二多数要求),可分析LLM在平衡多方立场时的策略差异。数据集支持对LLM政治共识能力的多维度评估,包括跨议题表现、权力结构适应性和投票机制响应性等。
背景与挑战
背景概述
EuroCon是由北京大学人工智能研究院和BIGAI等机构的研究人员于2025年提出的一个创新性基准数据集,旨在评估大型语言模型(LLMs)在复杂政治环境中达成共识的能力。该数据集基于2009至2022年间欧洲议会的2,225条高质量审议记录构建,覆盖第7、8届议会完整任期及第9届议会部分任期。EuroCon通过模拟包含特定政治议题、政治目标、参与党派和基于席位分配的权力结构等四要素的议会场景,为研究AI系统在政治协商领域的表现提供了标准化测试平台。该数据集填补了现有研究在评估LLMs政治共识形成能力方面的空白,对推动AI在民主协商、政策制定等社会治理领域的应用具有重要意义。
当前挑战
EuroCon面临的主要挑战体现在两个层面:在领域问题层面,该数据集致力于解决政治共识达成这一复杂问题,其核心挑战在于如何量化评估LLMs在多元价值冲突、权力结构差异等现实政治约束下协调不同党派立场的能力;在构建过程层面,研究人员需要处理原始数据冗余、跨来源信息对齐等技术难题,确保从欧洲议会官网、HowTheyVote和VoteWatch Europe等多源数据中提取的议题、辩论、决议和投票信息具有完整性和一致性。此外,开发能够准确模拟真实投票结果的开放式评估框架,以及设计反映不同权力结构和政治目标的任务场景,都是数据集构建过程中需要克服的关键技术挑战。
常用场景
经典使用场景
EuroCon数据集作为评估大型语言模型(LLM)在复杂政治环境中达成共识能力的基准,其经典使用场景包括模拟欧洲议会不同党派间的协商过程。通过构建包含具体政治议题、政治目标、参与党派及基于席位分配的权力结构等要素的议会设置,研究者能够系统评估LLM在简单多数、三分之二多数和否决权等不同投票机制下的表现。该数据集特别适用于分析模型在平衡多方利益冲突时的策略有效性,例如主导党派立场优先或弱势利益最大化等常见协商模式。
实际应用
在实际应用层面,EuroCon为政策制定自动化提供了验证平台。政府部门可借助该数据集测试AI系统在预算分配、贸易协定等关键议题上的协商方案质量;国际组织能评估多边谈判辅助工具的可行性;政治学者则可量化分析不同权力结构下共识形成的动态规律。例如在农业政策制定中,模型生成的奶制品危机解决方案已展现出平衡生产调控与农民权益的实际应用潜力。
衍生相关工作
EuroCon催生了多个重要研究方向:基于Rawlsianism和Utilitarianism原则的公平性算法改进、多智能体系统中的权力动态建模、以及政治立场语义分析技术的提升。相关工作如POLCA在政党声明匹配、UNBench在联合国投票模拟等方面取得进展,而Amulet等个性化偏好适配研究也受其启发。这些衍生成果共同推动了计算政治学与协商民主理论的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作