ParlaSent Multilingual Training Dataset

Name: ParlaSent Multilingual Training Dataset
Creator: 约瑟夫斯蒂芬研究所
Published: 2024-03-20 18:33:24
License: 暂无描述

arXiv2024-03-20 更新2024-06-21 收录

下载链接：

http://hdl.handle.net/11356/1585

下载链接

链接失效反馈

官方服务：

资源简介：

ParlaSent Multilingual Training Dataset是由约瑟夫斯蒂芬研究所创建的多语言数据集，包含7种语言的句子，用于训练议会程序中的情感识别模型。数据集从7个欧洲国家的议会程序中抽样，旨在填补中欧和东欧低资源语言的研究空白，并从比较视角提供相关性。数据集的创建过程涉及从议会辩论中手动标注情感，并用于训练情感标识符，以检测政治话语中的情感。该数据集的应用领域广泛，旨在通过标准化的工具和技术，使学者能够从比较视角研究政治情感，从而对社会科学中的多个学科做出重要贡献。

ParlaSent Multilingual Training Dataset is a multilingual dataset developed by the Joseph Stefan Institute, which contains sentences in 7 languages and is intended for training sentiment recognition models applied to parliamentary proceedings. The dataset is sampled from the parliamentary proceedings of 7 European countries, with the goals of filling the research gap of low-resource languages in Central and Eastern Europe and offering comparative research perspectives. The creation of this dataset entails manual sentiment annotation of parliamentary debates, and it is utilized to train sentiment identifiers for detecting sentiments within political discourse. This dataset has broad application scenarios, aiming to enable scholars to conduct comparative studies on political sentiments via standardized tools and technologies, thereby making significant contributions to multiple disciplines in social sciences.

提供机构：

约瑟夫斯蒂芬研究所

创建时间：

2023-09-18

搜集汇总

数据集介绍

构建方式

在政治话语分析领域，情感识别对于理解立法机构动态至关重要。ParlaSent多语言训练数据集的构建采用了严谨的流程，从七个欧洲国家（波斯尼亚和黑塞哥维那、克罗地亚、捷克、塞尔维亚、斯洛伐克、斯洛文尼亚和英国）的议会会议记录中抽取句子。首先，利用CLASSLA-Stanza和Trankit工具将演讲内容分割为句子，并过滤掉议会主持人的发言。随后，通过基于情感词典的种子词进行分层随机抽样，确保每个语言池中正、负及中性句子的均衡分布，最终每个语料库获得2600个句子用于人工标注。标注过程由两名母语者执行，采用六级别情感标注体系，并经过多轮迭代与一致性校验，最终数据以JSONL格式编码，包含句子文本、国家来源、标注标签及丰富的元数据信息。

特点

该数据集的核心特点在于其多语言性与领域特异性。它涵盖了七种欧洲语言，特别关注中欧和东欧的低资源语言，为跨语言政治情感分析提供了宝贵资源。数据集以句子为基本分析单元，避免了长文本中情感混杂的偏差，使得情感标注更为精确。标注体系采用六级别细粒度分类，可灵活简化为三类别（正、负、中性），增强了数据的适用性。此外，数据集附带了详尽的元数据，如演讲者信息、政党背景、时间戳等，支持多维度的政治学分析。这些特点共同构成了一个高质量、可扩展的领域专用资源，为政治文本的情感研究奠定了坚实基础。

使用方法

该数据集主要用于训练和评估议会文本情感识别模型。研究人员可将其作为监督学习数据，微调预训练的多语言Transformer模型（如XLM-R），以提升模型在政治领域的下游性能。使用前，需将数据按预设的训练集、开发集和测试集划分进行加载，并利用提供的三类别标签进行模型训练。实验表明，结合该数据集训练的领域自适应模型（XLM-R-parla）在情感识别任务上表现显著优于通用模型，且多语言联合训练能进一步提升目标议会数据的处理效果。此外，数据集还可用于跨语言迁移学习研究，验证模型在未见语言上的泛化能力，为比较政治学提供标准化分析工具。

背景与挑战

背景概述

在政治科学领域，情感分析被视为理解政治沟通的关键工具，尤其对于揭示议会辩论中的情绪动态具有重要价值。ParlaSent多语言训练数据集由Radboud大学和Jožef Stefan研究所的研究团队于2024年创建，旨在解决跨语言政治文本情感识别的资源匮乏问题。该数据集涵盖七种欧洲语言，包括波斯尼亚语、克罗地亚语、捷克语、英语、塞尔维亚语、斯洛伐克语和斯洛文尼亚语，通过人工标注句子级情感极性，为政治话语的量化研究提供了标准化基础。其核心研究问题聚焦于开发面向议会文本的领域专用多语言情感识别模型，以促进政治情感的比较研究，并推动计算语言学与社会科学的方法融合。

当前挑战

ParlaSent数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，议会文本的情感识别需应对政治话语的复杂性和语境依赖性，例如讽刺、隐含情绪和多义表达，这要求模型超越传统词典方法，实现细粒度情感分类；其二，在构建过程中，数据采集面临多语言资源不均衡的困境，尤其对于中欧和东欧的低资源语言，需克服语料标注的主观性差异，并通过迭代标注与一致性监控来提升数据质量。此外，模型训练需平衡多语言泛化能力与领域适应性，确保在未见语言和政治文化中保持稳健性能。

常用场景

经典使用场景

在政治话语分析领域，ParlaSent多语言训练数据集为议会程序中的情感识别研究提供了关键资源。该数据集通过人工标注七个欧洲国家议会发言的句子级情感极性，构建了涵盖波斯尼亚语、克罗地亚语、捷克语、英语、塞尔维亚语、斯洛伐克语和斯洛文尼亚语的标注语料库。其经典应用场景集中于训练跨语言情感分类模型，尤其针对中欧和东欧低资源语言的政治文本分析，为比较政治学研究提供了标准化的情感测量工具。

解决学术问题

该数据集有效解决了政治科学领域长期存在的两个核心问题：一是突破了传统词典方法在情感分析中的局限性，通过机器学习模型提升了情感识别的准确性与可靠性；二是弥合了计算语言学方法与社会科学研究之间的技术鸿沟，为低资源语言的政治文本分析提供了可复现的解决方案。其意义在于建立了首个面向议会政治领域的多语言情感标注基准，使得学者能够从比较视角系统研究政治情感的表达模式与演变规律。

衍生相关工作

基于该数据集衍生的经典工作包括：XLM-R-parla领域自适应预训练模型的开发，该模型在1.72亿词议会文本上继续预训练，显著提升了政治文本的情感识别性能；跨语言零样本情感分类框架的建立，证明了多语言模型在未见语言上的强大泛化能力；以及议会情感分析的方法论指南，为社会科学研究者提供了从数据收集到模型部署的完整技术路线图。这些工作共同推动了计算政治语言学这一交叉学科的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集