Hostility Detection in UK Politics: A Dataset on Online Abuse Targeting MPs

Name: Hostility Detection in UK Politics: A Dataset on Online Abuse Targeting MPs
Creator: 谢菲尔德大学计算机科学系
Published: 2024-12-05 18:37:38
License: 暂无描述

arXiv2024-12-05 更新2024-12-07 收录

下载链接：

https://zenodo.org/records/10809695

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“Hostility Detection in UK Politics: A Dataset on Online Abuse Targeting MPs”，由谢菲尔德大学计算机科学系创建，旨在收集和分析针对英国议会议员的网络敌意言论。数据集包含3,320条英语推文，覆盖了两年的时间段，并手动标注了敌意及其针对的身份特征（种族、性别、宗教、无）。数据集的创建过程包括数据收集、采样和标注，旨在通过深入的语言和主题分析，揭示英国政治敌意言论的独特内容和趋势。该数据集的应用领域主要集中在政治敌意检测，旨在解决网络环境中针对政治人物的敌意言论问题，特别是基于身份特征的敌意言论。

This dataset is titled *Hostility Detection in UK Politics: A Dataset on Online Abuse Targeting MPs*. It was developed by the Department of Computer Science at the University of Sheffield, with the core objective of collecting and analyzing online hostile speech targeting Members of Parliament (MPs) in the United Kingdom. The dataset includes 3,320 English tweets spanning a two-year period, and has been manually annotated for hostility and the targeted identity attributes: race, gender, religion, and "none". The dataset's creation pipeline encompasses data collection, sampling and manual annotation, aiming to uncover the unique content and prevailing trends of hostile political speech in the UK through in-depth linguistic and thematic analysis. The primary application domains of this dataset center on political hostility detection, with the goal of addressing the issue of hostile speech targeting political figures in online spaces, particularly identity-based hostile speech.

提供机构：

谢菲尔德大学计算机科学系

创建时间：

2024-12-05

搜集汇总

数据集介绍

构建方式

该数据集通过系统地收集和标注英国议员在社交媒体平台X上的推文，构建了一个包含3,320条推文的数据集。数据收集过程始于2020年11月，持续至2022年12月，涵盖了所有活跃在X平台上的568名英国议员。推文类型包括议员发布的原创推文、回复、转发以及议员转发的推文。为了确保标注的准确性和多样性，研究团队从这些推文中抽取了18名议员的推文进行详细标注，这些议员代表了不同的身份特征和政治派别。标注过程包括定义标注指南、培训标注人员以及质量控制，确保每条推文都被三位标注人员独立标注，并根据多数投票原则确定最终标签。

特点

该数据集的显著特点在于其针对性和细致性。首先，它专注于英国政治环境中的敌意检测，填补了现有通用敌意检测模型在政治语境中的不足。其次，数据集不仅标注了推文是否包含敌意，还进一步区分了敌意所针对的身份特征，如种族、性别和宗教，这为研究敌意的多维度特性提供了可能。此外，数据集的时间跨度长达两年，涵盖了多个政治热点事件，使得研究者能够分析敌意随时间的变化及其与特定事件的关联。

使用方法

该数据集适用于多种自然语言处理任务，特别是敌意检测和政治言论分析。研究者可以利用该数据集训练和评估敌意检测模型，通过二分类任务识别推文是否包含敌意，并通过多分类任务进一步区分敌意的类型。此外，数据集还可用于探索敌意与特定身份特征、政治派别以及时间因素之间的关系。为了有效利用该数据集，研究者需具备一定的自然语言处理和机器学习背景，并熟悉相关工具和框架，如BERT、RoBERTa等预训练语言模型。

背景与挑战

背景概述

在社交媒体日益成为政治互动的重要平台之际，英国政治家们通过Twitter等平台与选民的直接互动显著增加。这种互动虽然促进了沟通与反馈，但也使政治家们暴露在大量的敌意回应中，尤其是在匿名性较高的社交媒体环境中。这种敌意不仅针对政治家的政府角色，还常常攻击其个人身份，从而削弱公众对政府的信任，甚至可能引发线下暴力。尽管已有多种模型用于检测一般的敌意，但这些模型在政治语境中的适用性有限。因此，Mugdha Pandya等人于2020年至2022年间构建了一个包含3,320条英语推文的数据集，专门用于检测针对英国议员的敌意，并捕捉敌意推文中所针对的身份特征（如种族、性别、宗教等）。该数据集通过深入的语言和主题分析，揭示了英国政治敌意的独特内容，并为未来研究提供了宝贵的数据和见解。

当前挑战

构建和分析这一数据集面临多重挑战。首先，检测政治敌意需要高度专业化的方法，因为政治讨论往往反映了一个国家的独特语言和文化特征，包括地区俚语、亵渎语言和偏见。其次，数据集的构建过程中，如何准确区分和标注敌意与非敌意内容，以及如何处理多重身份特征的交叉敌意，都是复杂的问题。此外，评估预训练语言模型和大型语言模型在敌意检测任务中的表现，尤其是多类别分类任务中的表现，也是一个重要的挑战。最后，如何确保数据集的标注质量和一致性，以及如何处理标注过程中的主观性和偏见，也是需要解决的问题。

常用场景

经典使用场景

该数据集的经典使用场景在于识别和分类针对英国议会议员的网络敌意言论。通过分析3,320条经过人工标注的推文，研究者能够深入探讨这些言论的语言特征和主题内容，从而为自动检测政治敌意提供了宝贵的资源。这种分析不仅有助于理解网络敌意在政治领域的具体表现，还能为开发更精确的敌意检测模型提供数据支持。

解决学术问题

该数据集解决了在政治语境中自动检测敌意言论的学术难题。传统的敌意检测模型往往缺乏对特定政治背景的适应性，而该数据集通过详细标注敌意类型（如种族、性别、宗教等），为研究者提供了一个专门针对英国政治环境的敌意检测工具。这不仅提升了模型的准确性，还为跨文化、跨国家的敌意检测研究提供了新的视角和方法。

衍生相关工作

基于该数据集，研究者们已经开展了一系列相关工作，包括开发和评估针对政治敌意检测的预训练语言模型（如BERT和RoBERTa）。这些模型在识别和分类敌意言论方面表现出色，进一步推动了敌意检测技术的发展。此外，该数据集还激发了对敌意言论背后社会和心理因素的深入研究，为理解网络敌意的成因和影响提供了新的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集