stance hof us2020

Name: stance hof us2020
Creator: 斯图加特大学机器语言处理研究所
Published: 2021-03-02 19:59:54
License: 暂无描述

arXiv2021-03-02 更新2024-06-21 收录

下载链接：

https://www.ims.uni-stuttgart.de/data/stancehofus2020

下载链接

链接失效反馈

官方服务：

资源简介：

数据集'stance hof us2020'由斯图加特大学机器语言处理研究所创建，包含3000条与2020年美国总统选举相关的推文。该数据集旨在通过结合仇恨/攻击性言论检测和政治立场检测，分析候选支持者的在线交流方式。数据集内容涵盖了对特朗普和拜登等候选人的支持、反对、中立及混合立场的标注，以及是否使用攻击性语言的标注。创建过程中，研究团队通过Twitter API收集数据，并进行了多轮人工标注以确保数据质量。该数据集的应用领域主要集中在政治传播分析和自动仇恨言论检测技术的发展，旨在解决社交媒体中的政治偏见和仇恨言论问题。

The dataset 'stance hof us2020' was created by the Institute for Machine Language Processing, University of Stuttgart, and contains 3,000 tweets related to the 2020 United States presidential election. This dataset aims to analyze the online communication patterns of presidential candidate supporters by integrating hate/offensive speech detection and political stance detection tasks. The dataset includes annotations for stances towards candidates such as Donald Trump and Joe Biden, covering support, opposition, neutrality, and mixed stances, as well as annotations indicating the use of offensive language. During the dataset construction process, the research team collected data via the Twitter API and conducted multiple rounds of manual annotation to ensure data quality. The primary application domains of this dataset are political communication analysis and the development of automated hate speech detection technologies, with the objective of addressing issues of political bias and hate speech on social media platforms.

提供机构：

斯图加特大学机器语言处理研究所

创建时间：

2021-03-02

搜集汇总

数据集介绍

构建方式

在政治传播与社交媒体分析领域，Stance Hof US2020数据集的构建体现了对2020年美国大选期间在线言论的精细捕捉。研究者通过Twitter API v1.1，在选举前后共七周时间内，以总统及副总统候选人姓名、竞选口号、昵称及相关政治标签为关键词，系统采集了382,210条推文。经过去重处理后，从中随机抽取3,000条推文进行人工标注。标注任务融合了立场检测与仇恨/冒犯性语言识别，针对特朗普、拜登和韦斯特三位目标人物，标注者需判断每条推文所表达的立场类别——支持、反对、未提及、混合或中立，并同时标注其是否包含仇恨或冒犯性内容。标注过程经过多轮迭代与指南修订，最终由单一标注者完成全部标注，确保了数据的一致性与可靠性。

使用方法

该数据集主要服务于自然语言处理领域的两大任务：政治立场检测与仇恨/冒犯性语言识别。研究者可利用其进行监督学习模型的训练与评估，例如论文中采用的BERT基线模型，在支持与未提及类别的检测上取得了较高性能（F1分数超过0.89），而在混合、中立及反对类别的识别上则面临挑战，这揭示了细粒度立场分类的难度。数据集亦支持跨语料库的对比研究，通过与其他仇恨语音数据集（如Davidson等人或Mandl等人的数据）进行交叉训练与测试，可探究不同标注准则与领域特性对模型泛化能力的影响。此外，该资源可用于社会计算研究，分析政治阵营间的攻击性言论模式、竞选期间的舆论动态，以及仇恨语言与政治立场之间的关联性，为在线内容治理与政治传播分析提供数据支撑。

背景与挑战

背景概述

在社交媒体日益成为政治传播核心场域的背景下，2021年斯图加特大学的Lara Grimminger与Roman Klinger构建了Stance Hof US2020数据集，聚焦于2020年美国大选期间推特平台的政治立场与仇恨言论联合分析。该数据集收录了选举前后七周内的3000条推文，通过精细标注支持、反对、中立、混合及无立场五类政治态度，并同步标记仇恨攻击性语言，旨在探究特朗普与拜登支持者的在线话语行为差异，为计算语言学领域的立场检测与有害内容识别提供了关键实证资源。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，政治立场检测需应对文本中隐含态度、反讽及混合情绪的复杂表达，而仇恨言论识别则因语境依赖性与文化特异性难以实现跨领域泛化；在构建过程中，标注者间对仇恨言论的判定初始一致性较低，需通过多轮迭代细化指南以提升标注信度，同时推特数据的噪声干扰、搜索词偏差及类别分布不均衡亦对数据质量与模型训练构成显著挑战。

常用场景

经典使用场景

在社交媒体政治传播分析领域，Stance Hof US2020数据集为研究者提供了探索2020年美国大选期间在线言论动态的宝贵资源。该数据集通过结合立场检测与仇恨/冒犯性语言标注，使得学者能够深入剖析支持者与反对者在推特平台上的表达模式，尤其关注政治对手间的攻击性言论分布。这种双重标注机制使得数据集成为分析政治极化背景下在线交流行为的关键工具，为理解选举期间的社会情绪与语言使用提供了实证基础。

解决学术问题

该数据集有效解决了自然语言处理中政治立场检测与仇恨言论识别相结合的学术挑战。通过精细标注“支持”、“反对”、“混合”、“中立”及“未提及”等多类立场，并同步标注仇恨/冒犯性语言，它突破了传统立场检测仅关注二元对立的局限。这种设计使得研究者能够探究政治立场表达与攻击性语言之间的关联性，例如分析针对特定候选人的仇恨言论是否呈现不对称分布，从而推动跨领域的社会计算与政治传播研究。

实际应用

在实际应用层面，Stance Hof US2020数据集为社交媒体内容审核与政治竞选监测提供了技术支撑。基于该数据集训练的自动检测模型可协助平台识别政治讨论中的攻击性言论，辅助维护在线讨论环境的健康度。同时，竞选团队可利用此类分析工具实时追踪公众情绪走向，评估宣传效果与对手攻击策略，从而优化沟通方案。此外，该数据集也为政策制定者理解网络政治言论的演变规律提供了数据依据。

数据集最近研究