ParlaCAP
收藏arXiv2026-02-18 更新2026-02-20 收录
下载链接:
http://hdl.handle.net/11356/2093
下载链接
链接失效反馈官方服务:
资源简介:
ParlaCAP是一个由约瑟夫·斯蒂芬研究所等机构联合创建的大规模多语言议会数据集,旨在分析欧洲28个国家和自治地区的议会议程设置。该数据集基于ParlaMint语料库,包含超过800万条议会演讲记录,涵盖20多种语言,数据量达12亿词。数据集创建过程采用了教师-学生框架,利用大型语言模型(如GPT-4o)自动标注政策主题标签,并通过多语言编码器模型进行微调以提升标注效率。ParlaCAP不仅提供政策主题分类,还包含丰富的演讲者及政党元数据,并整合了ParlaSent多语言情感分析模型的预测结果,为比较政治学研究提供了全面资源,可用于分析政治注意力分配、情感模式及政策关注中的性别差异等问题。
提供机构:
约瑟夫·斯蒂芬研究所; 卢布尔雅那大学·计算机与信息科学学院; 当代史研究所; 萨格勒布大学·政治学院
创建时间:
2026-02-18
搜集汇总
数据集介绍
构建方式
在比较政治议程研究领域,构建大规模、多语言的议会数据集面临标注成本高昂与跨语言一致性的双重挑战。ParlaCAP数据集创新性地采用“教师-学生”框架进行构建:首先基于涵盖28个欧洲国家及自治区的ParlaMint语料库,从超过8百万条议会演讲中抽样形成训练集;继而利用高性能大语言模型GPT-4o作为“教师”,根据详尽的比较议程项目分类体系自动生成政策主题标注;最后以这些标注为训练数据,对经过议会领域预训练的多语言编码器模型XLM-R-Parla进行微调,形成可高效处理海量数据的“学生”分类器。该流程通过针对性数据增强策略优化了稀缺类别标注,并利用人工标注测试集验证了模型标注与人工标注的一致性,实现了高质量、可扩展的自动化数据集构建。
特点
ParlaCAP数据集作为欧洲议会比较研究的突破性资源,其核心特征体现在多维度的丰富性与系统性。数据集涵盖28个欧洲国家及自治区的议会演讲,时间跨度集中于2015至2022年,包含超过8百万条记录,提供了前所未有的地理与时间覆盖广度。每条记录不仅包含原始演讲文本及其机器翻译英文版本,更整合了三大核心标注维度:基于比较议程项目框架的22类政策主题分类、由ParlaSent模型生成的句子级与演讲级情感分析标签,以及从ParlaMint、PartyFacts和V-DEM等权威数据库融合而来的演讲者、政党与民主背景元数据。这种将主题、情感与结构化元数据有机结合的架构,使数据集能够同时支持议程设置、情感政治与代表性问题等多元研究议题,为跨国比较政治分析提供了统一、精细的数据基础。
使用方法
为便利社会科学研究,ParlaCAP数据集以符合“文本即数据”范式的表格形式发布,主要包含演讲级与句子级两种TSV文件。演讲级文件完整呈现文本、主题标签、聚合情感标签及全部元数据,适用于以演讲为单位的议程分布、政党差异等宏观分析;不含文本的演讲级简版文件则大幅提升数据加载与处理效率,便于进行大规模定量建模。句子级文件提供细粒度情感标签,支持对议会辩论中情感动态的微观探索。研究者可根据具体问题选择分析层次,并利用数据集提供的政党ID、国家ID等标准化标识符,轻松与外部数据库进行链接与合并。官方提供的Python与R分析教程进一步降低了使用门槛,使得跨国比较、时间序列分析及多层次建模等复杂研究设计得以高效实施。
背景与挑战
背景概述
ParlaCAP数据集是2025年由斯洛文尼亚约瑟夫·斯蒂芬研究所、卢布尔雅那大学及萨格勒布大学政治科学学院的研究团队共同创建的大规模议会议程分析资源。该数据集旨在解决比较政治学中长期存在的核心研究问题:如何系统追踪和比较欧洲多国议会的政策注意力分配。通过将比较议程项目(CAP)的编码框架应用于涵盖28个欧洲国家及自治地区、包含超过800万条议会演讲的ParlaMint多语种语料库,ParlaCAP首次实现了跨语言、跨国家的议会政策议题标准化标注。这项工作不仅革新了传统依赖人工编码的议程设置研究方法,更通过集成演讲者元数据、政党信息及情感分析标签,为民主治理、政治代表性和议程竞争等领域的实证研究提供了前所未有的数据基础,显著推动了计算社会科学与比较政治学的交叉融合。
当前挑战
ParlaCAP数据集致力于解决的核心领域挑战在于大规模、多语种议会文本的政策议题自动分类。传统比较议程研究受限于人工编码的成本与规模,难以对跨国家、长时段的议会演讲进行系统性分析。该数据集通过构建领域专用的多语种分类器,旨在精准识别21类CAP政策主题及“其他”类别,以量化政治注意力分布。在构建过程中,研究团队面临多重技术挑战:首先,需要处理超过20种语言的语义差异与领域适应性,确保分类模型在诸如波斯尼亚语等结构化程度较低的辩论文本中保持稳健性能;其次,特定政策类别(如“公共土地”)在训练数据中极度稀疏,需设计基于关键词检索与大语言模型标注的针对性数据增强流程;此外,还需在保证标注质量的前提下,通过“教师-学生”框架平衡大语言模型标注的高成本与下游模型部署的可扩展性,最终实现与人工标注相当的一致性水平。
常用场景
经典使用场景
在比较政治学与政策议程研究领域,ParlaCAP数据集为学者提供了前所未有的跨时空分析能力。该数据集整合了28个欧洲国家及自治地区议会超过八百万条演讲记录,并依据比较议程项目(CAP)框架进行了系统性的政策主题分类。研究者能够借此追踪不同国家议会关注焦点的动态演变,例如分析宏观经济、政府运作或卫生政策等议题在各国立法辩论中的相对重要性及其随时间变化的模式。这种大规模、标准化的数据支撑了关于政治注意力分配、议程竞争以及制度差异如何影响政策优先级的实证研究。
解决学术问题
ParlaCAP数据集有效应对了比较政治研究中长期存在的两大挑战:数据稀缺性与分析标准化困境。传统上,跨国议会议程研究受限于手动编码的高成本与低效率,难以实现大规模历时性比较。该数据集通过创新的LLM师生框架,以低成本生成了高质量、跨语言的政策主题标注,确保了数据的一致性与可比性。它使得学者能够系统检验关于议程设置、代表性回应以及政党竞争的理论假设,例如探究危机事件如何重塑议会注意力结构,或检验女性议员是否更倾向于关注社会福利等特定政策领域,从而在经验层面深化对民主运作机制的理解。
衍生相关工作
ParlaCAP数据集建立在ParlaMint语料库与比较议程项目(CAP)的坚实基础上,其方法论与数据资源已催生了一系列延伸研究。基于其发布的ParlaCAP分类器,研究者开发了针对议会文本的领域专用主题模型。数据集整合的ParlaSent情感分析标签,促进了关于议会演讲情感基调与政治极化的交叉研究。此外,其丰富的演讲者与政党元数据,结合V-Dem等民主指数,启发了对代表性与民主质量之间关系的量化探索。这些衍生工作共同推动计算社会科学方法在政治文本分析中的深入应用。
以上内容由遇见数据集搜集并总结生成



