TRUMP-2016, TRUMP-CHRONOS, EU-OOD

Name: TRUMP-2016, TRUMP-CHRONOS, EU-OOD
Creator: 丹麦哥本哈根大学计算机科学系, 丹麦哥本哈根大学社会数据科学中心, 希腊国家社会研究中心
Published: 2025-07-25 22:18:54
License: 暂无描述

arXiv2025-07-25 更新2025-08-13 收录

下载链接：

https://github.com/coastalcph/populism-llms

下载链接

链接失效反馈

官方服务：

资源简介：

本研究中，我们创建并发布了三个新数据集，用于识别政治话语中的细粒度民粹主义形式。TRUMP-2016数据集包含唐纳德·特朗普在2016年总统竞选期间发表的70篇演讲，共有约15K个句子，经过人工标注。TRUMP-CHRONOS数据集包含特朗普从2015年到2025年的713篇未标注演讲，共有约656K个句子。EU-OOD数据集包含5位欧洲领导人发表的6篇竞选演讲，共有约1.8K个句子。这些数据集的创建旨在帮助研究人员分析大规模文本语料库，并提取有关政治家如何使用民粹主义语言的宝贵见解。

In this study, we construct and release three novel datasets for identifying fine-grained populist forms in political discourse. The TRUMP-2016 dataset contains 70 speeches delivered by Donald Trump during his 2016 presidential campaign, totaling approximately 15K sentences and having been manually annotated. The TRUMP-CHRONOS dataset includes 713 unannotated speeches by Trump spanning from 2015 to 2025, amounting to around 656K sentences. The EU-OOD dataset consists of 6 campaign speeches given by 5 European leaders, with a total of roughly 1.8K sentences. These datasets are developed to assist researchers in analyzing large-scale text corpora and extracting valuable insights into how politicians employ populist language.

提供机构：

丹麦哥本哈根大学计算机科学系, 丹麦哥本哈根大学社会数据科学中心, 希腊国家社会研究中心

创建时间：

2025-07-25

搜集汇总

数据集介绍

构建方式

该数据集通过系统收集和标注美国前总统唐纳德·特朗普在2016年总统竞选期间的演讲文本构建而成。研究团队从加州大学圣巴巴拉分校的美国总统项目获取原始演讲文本，经过人工校对和转录错误修正后，由四名政治学背景的本科生在领域专家指导下完成句子级标注。标注过程采用严格的3类标签体系（中立、反精英主义、人民中心主义），并通过时间顺序划分训练集（56篇演讲）和测试集（14篇演讲），确保数据的时间分布合理性。

使用方法

该数据集专为计算政治学任务设计，支持三种典型应用场景：首先可作为训练数据用于微调预训练语言模型（如RoBERTa），实现民粹主义话语的自动分类；其次适用于跨模型对比研究，论文中已验证传统PLM与新型LLM在零样本和微调设置下的性能差异；最后支持历时性政治话语分析，通过构建民粹主义话语指数（PDI），研究者可量化分析演讲策略的演变规律。使用时应结合配套的评分方案，注意句子级分类结果需通过加权计算转化为篇章级指标。

背景与挑战

背景概述

TRUMP-2016, TRUMP-CHRONOS, 和 EU-OOD 数据集由哥本哈根大学和希腊国家社会研究中心的学者团队于2025年创建，旨在通过自然语言处理技术识别政治话语中的民粹主义表达。这些数据集特别关注美国前总统唐纳德·特朗普在2016年总统竞选期间的演讲，以及欧洲政治家的演讲，为民粹主义研究提供了丰富的文本资源。数据集的核心研究问题是如何从复杂的政治话语中识别出民粹主义的精细表现形式，即人民中心主义和反精英主义。这些数据集的出现推动了政治学和计算社会科学的交叉研究，为分析民粹主义在政治传播中的角色提供了新的方法论工具。

当前挑战

该数据集面临的挑战主要包括两个方面：首先，在领域问题方面，民粹主义作为一种复杂且具有争议性的社会概念，其识别和分类需要处理高度的语义模糊性和上下文依赖性。例如，反精英主义的表达可能与其他形式的批评难以区分。其次，在构建过程中，数据集面临标注一致性的挑战，由于民粹主义定义的多样性，不同标注者之间可能存在显著的分歧。此外，数据集的规模限制和领域特定性（如仅聚焦于特朗普的演讲）也限制了模型的泛化能力。在跨语言和跨文化背景下（如EU-OOD数据集），翻译质量和文化差异进一步增加了数据处理的复杂性。

常用场景

经典使用场景

TRUMP-2016、TRUMP-CHRONOS和EU-OOD数据集在政治话语分析领域具有重要应用价值，尤其在研究民粹主义修辞的精细分类和跨语境迁移方面表现突出。这些数据集通过标注句子级别的反精英主义（anti-elitism）和人民中心主义（people-centrism）标签，为量化分析政治人物的演说策略提供了结构化数据支持。例如，TRUMP-2016被用于追踪特朗普2016年竞选期间民粹主义话语的演变，而EU-OOD则通过欧洲政治家的多语言演讲数据，验证模型在跨文化语境下的泛化能力。

解决学术问题

该系列数据集解决了政治学与计算社会科学中的核心挑战：如何客观量化民粹主义这一高度争议的概念。通过将抽象的意识形态理论（如拉克劳的话语理论）转化为可计算的文本分类任务，研究者能够系统分析民粹主义话语的构成要素（如'精英批判'与'人民颂扬'的共现模式）。其意义在于突破了传统人工编码的规模限制，使得对海量政治文本的纵向比较（如特朗普十年演讲的TRUMP-CHRONOS分析）成为可能，为理解民粹主义的策略性运用提供了实证基础。

实际应用

在实际应用中，这些数据集支持了多项政治传播与舆情监测任务。例如，基于TRUMP-CHRONOS构建的民粹主义话语指数（PDI）被用于测量政治人物在不同竞选阶段的话语强度变化，辅助竞选策略分析。欧盟机构则利用EU-OOD数据集开发了跨语言民粹主义监测系统，以识别欧洲议会辩论中的极化言论。此外，数据集衍生的分类模型（如RoBERTa微调版本）已被整合进媒体分析平台，用于实时检测新闻报道中的民粹主义框架。

数据集最近研究