Trump Campaign Corpus

github2022-10-27 更新2024-05-31 收录

下载链接：

https://github.com/unendin/Trump_Campaign_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Trump Campaign Corpus包含了Donald Trump的演讲、访谈、辩论、市政厅会议、新闻发布会、书面声明和推文。该数据集覆盖了从2015年6月16日宣布参选至2016年11月8日选举日的时间段。目前，我们已经收集了超过1千条通信和4.4千条推文的部分或全部内容。这些内容代表了将近3百万个Trump的词汇以及1百万个采访者和辩论对手的词汇。所有转录都是人工制作的，尽管风格和质量有所不同。

The Trump Campaign Corpus encompasses speeches, interviews, debates, town hall meetings, press conferences, written statements, and tweets by Donald Trump. This dataset spans from June 16, 2015, when he announced his candidacy, to November 8, 2016, the election day. To date, we have collected partial or complete content from over 1,000 communications and 4,400 tweets. These contents represent nearly 3 million words from Trump and 1 million words from interviewers and debate opponents. All transcriptions are manually produced, although there are variations in style and quality.

创建时间：

2017-05-19

原始信息汇总

数据集概述

数据集名称

Trump Campaign Corpus

数据集内容

包含Donald Trump在2015年6月16日至2016年11月8日期间的演讲、访谈、辩论、市政厅会议、新闻发布会、书面声明和推文。总计收集了超过1,000次沟通记录和4,400条推文，总计近300万特朗普言论和100万访谈者及辩论对手言论。

数据集格式

JSON文件：包含所有数据，包括推文。
文本文件：按日期命名的单个文件，不包含推文。

数据集结构

文本格式：每段对话以说话者全名大写开头，如DONALD TRUMP: I would have a very, very good relationship with Putin ...。
元数据：包括发布日期、类型、参与人物、事件、标题、是否按原话记录、完整性、地点、发布者等信息。

数据集用途

主要用于文本分析和批评，特别关注时间模式。

数据集版权

大部分内容来自媒体网站，主要版权受限，仅限于公共利益研究使用。

搜集汇总

数据集介绍

构建方式

特朗普竞选语料库（Trump Campaign Corpus）的构建基于唐纳德·特朗普在2015年6月16日宣布参选至2016年11月8日大选日期间的公开言论。该数据集涵盖了演讲、采访、辩论、市政厅会议、新闻发布会、书面声明以及推文等多种形式的文本内容。通过人工转录的方式，数据集共收录了超过1000条通讯记录和4400条推文，总计包含近300万字的特朗普言论及100万字的采访者和辩论对手的言论。数据以JSON文件和独立文本文件的形式提供，推文仅以JSON格式存储。

特点

该数据集的特点在于其广泛的时间覆盖范围和多样化的文本类型。数据集不仅包含了特朗普的公开言论，还记录了与其互动的采访者和辩论对手的发言。每一条记录均附有详细的元数据，如发布日期、文本类型、参与者信息、事件背景等，便于进行时间序列分析和文本挖掘。此外，数据集还保留了原始文本的段落结构和转录注释，增强了文本的可读性和分析价值。

使用方法

特朗普竞选语料库适用于文本分析和批评研究，特别是针对时间模式的分析。用户可以通过JSON文件或独立文本文件访问数据，利用元数据进行跨文档的交叉引用。数据集的结构化设计使得用户能够轻松提取特定时间点或事件中的言论内容，进行深入的语言风格、主题演变或情感分析。在使用时，用户需注意数据集的版权限制，确保仅用于符合公共利益的学术研究。

背景与挑战

背景概述

特朗普竞选语料库（Trump Campaign Corpus）是一个专注于美国前总统唐纳德·特朗普在2015年6月16日宣布参选至2016年11月8日大选日期间的公开言论数据集。该数据集由特朗普的演讲、采访、辩论、市政厅会议、新闻发布会、书面声明以及推文组成，涵盖了超过1000次通讯记录和4400条推文，总计近300万字的特朗普言论以及100万字的采访者和辩论对手的言论。该语料库旨在支持文本分析和批评研究，特别是时间模式的分析。数据集由多个来源的转录文本构成，主要来源于CNN、Fox等媒体网站，以及donaldjtrump.com等官方渠道。

当前挑战

特朗普竞选语料库的构建面临多重挑战。首先，数据来源的多样性和复杂性使得转录文本的质量和风格存在较大差异，部分文本可能包含不完整或难以理解的部分。其次，由于大部分材料受版权保护，使用范围受到限制，仅能用于公共利益的研究。此外，数据集的构建过程中需要处理大量的非结构化文本，包括推文的清洗和标准化，以确保数据的一致性和可用性。最后，时间跨度的广泛性要求对数据进行精确的时间标注，以便进行时间模式的分析。这些挑战不仅影响了数据集的构建效率，也对后续的研究提出了更高的技术要求。

常用场景

经典使用场景

Trump Campaign Corpus 数据集广泛应用于政治传播学、语言学和社会学领域的研究。研究者通过分析特朗普在竞选期间的演讲、采访、辩论和推文，探讨其语言风格、修辞策略以及信息传播模式。该数据集特别适合用于时间序列分析，揭示特朗普在不同阶段竞选策略的变化及其对公众舆论的影响。

衍生相关工作

基于 Trump Campaign Corpus，研究者发表了多篇经典论文，探讨了特朗普的语言风格、信息传播策略及其对选民的影响。例如，一些研究聚焦于特朗普推文的情绪分析，揭示了其推文对公众情绪的引导作用。此外，还有研究利用该数据集分析了特朗普在辩论中的修辞技巧，为政治传播学提供了新的理论视角。

数据集最近研究