cjvt/ParlaMint3

Name: cjvt/ParlaMint3
Creator: cjvt
Published: 2024-01-05 11:51:39
License: 暂无描述

Hugging Face2024-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cjvt/ParlaMint3

下载链接

链接失效反馈

官方服务：

资源简介：

ParlaMint 3.0是一个多语言的议会辩论语料库，包含26种语言的议会辩论记录，时间跨度从2015年到2022年中期。每个语料库的大小在9到125百万字之间。数据集的特征包括辩论的唯一标识符、标题、日期、议会机构、立法任期、会议编号、发言人信息等。数据集的结构部分提供了一个数据实例的示例，展示了数据集中的一个具体记录。此外，数据集还提供了许可证信息、引用信息以及贡献者信息。

提供机构：

cjvt

原始信息汇总

数据集概述

数据集总结

ParlaMint 3.0 是一个包含26个多语言可比语料库的数据集，主要包含从2015年开始至2022年中期的议会辩论记录，每个语料库的大小在9到125百万字之间。

语言

数据集包含以下语言：斯洛文尼亚语、奥地利语、波斯尼亚语、比利时语、保加利亚语、捷克语、丹麦语、爱沙尼亚语、加泰罗尼亚语、加利西亚语、法语、英国语、希腊语、克罗地亚语、匈牙利语、冰岛语、意大利语、拉脱维亚语、荷兰语、挪威语、波兰语、葡萄牙语、塞尔维亚语、瑞典语、土耳其语、乌克兰语。

数据集结构

数据实例

以下是数据集中的一个样本实例：

json { "ID": "ParlaMint-SI_2022-04-06-SDZ8-Izredna-99.u227", "Title": "Minutes of the National Assembly of the Republic of Slovenia, Term 8, Extraordinary Session 99, (06. 04. 2022)", "Date": "2022-04-06", "Body": "Lower house", "Term": "8", "Session": "", "Meeting": 99, "Sitting": "", "Agenda": "", "Subcorpus": "War", "Speaker_role": "Regular", "Speaker_MP": "MP", "Speaker_Minister": "-", "Speaker_party": "Levica", "Speaker_party_name": "Levica", "Party_status": "Opposition", "Speaker_name": "Koražija, Boštjan", "Speaker_gender": "M", "Speaker_birth": "1974", "text": "[[…]]Pa celo poslanec z Prekmurja, no, kaj sem rekel [[…]] [[nemir v dvorani]] Zdaj bodite pa tiho, v redu, okej. No, kot rečeno, gre se za to, da se zaščiti tudi kot Prekmurje samo in tudi takrat se je, ne vemo, kdo in zakaj je širil neke, bom rekel, nebuloze oziroma tudi »fake news« po Prekmurju, v smislu, čez, da Levica želi prepovedati geotermalno energijo oziroma pač samo uporabo, kar ne drži. V Levici smo za geotermalno energijo, smo pa seveda proti [[znak za konec razprave]] in strogo proti frekingu, to kar ste želeli vi doseči prej, ampak ste potem videli, da zaradi glasovanja, ki se je že zgodilo na prejšnji seji, da tega ne boste dosegli in ste tudi morali popustit. In srečen sem za Prekmurje in srečen sem za vzhodno Slovenijo, da smo končno nekaj pametnega naredili. Hvala. " }

数据字段

ID: 每个示例的唯一标识符；
Title: 议会辩论的标题或标题；
Date: 议会辩论发生的日期；
Body: 辩论发生的主要议会会议室或议院；
Term: 辩论进行的立法任期或会议编号；
Session: 辩论举行的特定会议或任期的一部分；
Meeting: 会议在会议或任期内的数字标识符或计数；
Sitting: 较大会议或会议的特定部分或部分；
Agenda: 记录所属的主要语料库的子集或类别；
Subcorpus: 记录所属的主要语料库的子集或类别；
Speaker_role: 辩论期间发言人的角色或职位，例如主席、主要发言人等；
Speaker_MP: 指示发言人是否为议会议员；
Speaker_Minister: 指示发言人是否为部长或担任行政职务；
Speaker_party: 发言人的政党的缩写代码或标识符；
Speaker_party_name: 发言人所属政党的全名；
Party_status: 政党在议会会议中的地位或立场，例如执政党、反对党等；
Speaker_name: 辩论期间发言人的全名；
Speaker_gender: 发言人的性别；
Speaker_birth: 发言人的出生年份；
text: 辩论期间口语内容的转录。

搜集汇总

数据集介绍

构建方式

在政治语言学与计算社会科学领域，ParlaMint 3.0 数据集的构建体现了跨国家协作的精密工程。该数据集通过系统收集 26 个国家和地区自 2015 年至 2022 年中的议会辩论记录，涵盖从原始会议转录文本到结构化元数据的完整流程。构建过程中，各国研究团队遵循统一标注规范，对发言内容、演讲者身份及其政治背景进行标准化处理，确保多语言语料间的可比性与一致性。数据经过严格的质量控制与格式转换，最终形成规模介于 900 万至 1.25 亿词汇量的平行语料库，为比较政治研究提供了可靠的基础资源。

特点

作为多语言议会语料库的典范，ParlaMint 3.0 展现了其独特的学术价值。数据集覆盖 26 种语言及对应政治体系，不仅包含丰富的辩论文本，还整合了细致的元数据字段，如演讲者政党、职务、性别及出生年份，支持多维度的社会语言分析。其子语料库设计允许研究者聚焦特定议题，例如战争相关辩论，增强了数据集的专题研究潜力。语料规模庞大且时间跨度连贯，能够追踪政治话语的历时演变，为跨文化比较与政策分析提供了前所未有的数据支撑。

使用方法

在应用层面，ParlaMint 3.0 为政治学、计算语言学及数字人文研究开辟了广阔路径。研究者可通过 HuggingFace 平台直接加载数据集，利用其标准化的数据字段进行话语分析、政党立场建模或演讲者特征挖掘。多语言特性支持跨国家比较研究，例如探究不同政治体制下的辩论风格。数据集兼容自然语言处理工具链，便于进行文本分类、实体识别或情感分析等任务。开放许可协议允许学术与教育用途的自由使用，鼓励全球学者在此基础上开展创新性研究。

背景与挑战

背景概述

在计算语言学与政治科学交叉领域，大规模、结构化的议会辩论语料库对于推动多语言自然语言处理、政治话语分析及比较民主研究具有关键价值。ParlaMint 3.0数据集由Tomaž Erjavec等学者及多国研究机构于2023年联合构建，收录了2015年至2022年间26个欧洲国家及地区的议会辩论文本，涵盖斯洛文尼亚语、德语、法语等二十余种语言。该数据集的核心研究问题在于提供标准化的多语言可比语料，以支持跨语言信息抽取、政治立场检测、话语风格分析等任务，其广泛的语言覆盖与精细的元数据标注显著提升了政治文本计算的深度与广度，为比较政治学与语言技术研究提供了不可或缺的基础资源。

当前挑战

ParlaMint 3.0致力于解决政治文本多语言处理与比较分析中的核心挑战，包括跨语言语义对齐、政治术语的语境差异以及话语结构的文化特异性建模。在构建过程中，研究团队面临诸多实际困难：首先，需协调不同国家议会的异构数据格式与发布政策，实现原始转录文本的结构化转换与标准化；其次，在多语言环境下确保元数据字段（如政党归属、发言人角色）的一致性标注面临语义鸿沟；此外，处理口语化辩论文本中的非规范表达、中断现象及多模态注释（如现场插话）也增加了语料清洗与归一化的复杂度。这些挑战共同凸显了大规模政治语料库构建中技术统一性与文化适应性之间的平衡难题。

常用场景

经典使用场景

在政治语言学与计算社会科学领域，ParlaMint3.0数据集作为多国议会辩论的标准化语料库，其经典使用场景聚焦于跨语言政治话语的对比分析。研究者借助其涵盖26种语言、时间跨度从2015年至2022年的结构化文本，能够系统考察不同政治体制下立法机构的议事风格、议题演变与辩论策略。该数据集尤其适用于探究欧洲各国在共同政治事件（如欧洲一体化、危机应对）中的表述差异，为理解跨国议会沟通模式提供了实证基础。

衍生相关工作

围绕该数据集已衍生出系列经典研究：在计算社会科学方向，Ljubešić等人开发了跨语言政党意识形态光谱预测模型；Erjavec团队利用时间序列分析揭示了欧洲议会中危机话语的传播规律。自然语言处理领域则涌现出基于该数据的政治文本风格迁移研究（如Kopp等人的跨政党修辞分析），以及多语言议会发言分类系统（如Ogrodniczuk团队的发言角色识别框架）。这些工作共同推动了政治文本计算范式的发展。

数据集最近研究