抗议事件数据集
收藏arXiv2024-09-15 更新2024-09-18 收录
下载链接:
https://zenodo.org/records/12574289
下载链接
链接失效反馈官方服务:
资源简介:
抗议事件数据集由莱顿大学和迭戈波塔莱斯大学创建,包含超过350万条关于阿根廷和智利抗议事件的推文。数据集涵盖了2020年阿根廷的冠状病毒和司法改革抗议以及2019年智利的社会爆发抗议。数据集通过Twitter API获取,并使用Perspective算法和人工标注创建了黄金标准,用于评估大型语言模型在文本标注任务中的表现。该数据集主要用于研究社交媒体中的毒性和不文明行为,旨在解决政治内容自动标注的问题。
The Protest Event Dataset, created by Leiden University and Universidad Diego Portales, contains over 3.5 million Tweets related to protest events in Argentina and Chile. It covers two major protest campaigns: the 2020 protests against COVID-19 and judicial reforms in Argentina, and the 2019 social uprising protests in Chile. The dataset was collected via the Twitter API, and a gold standard for evaluating the performance of Large Language Models (LLMs) on text annotation tasks was developed using the Perspective algorithm and manual annotations. This dataset is primarily used for research on toxicity and incivility in social media, aiming to address the challenges of automatic annotation for political content.
提供机构:
莱顿大学, 荷兰 迭戈波塔莱斯大学, 智利
创建时间:
2024-09-15
搜集汇总
数据集介绍

构建方式
抗议事件数据集的构建基于超过350万条在Twitter上发布的关于阿根廷和智利抗议事件的消息。这些数据通过特定的抗议相关主题标签进行抓取,并使用Twitter API以JSON格式下载。为了确保数据质量,研究团队创建了一个金标准,通过Perspective算法对整个语料库进行预分类,随后由五名高技能的人类编码员对随机抽取的1000条消息进行手动标注,以二元分类方式确定消息的毒性和非毒性。
使用方法
抗议事件数据集可用于多种研究目的,特别是在政治内容文本标注任务中,如毒性和无礼行为的检测。研究者可以通过API访问数据集,利用其进行机器学习模型的训练和验证,或者进行社会科学领域的定量分析。此外,数据集的高质量标注和多样性使其成为评估和比较不同语言模型性能的理想资源,尤其是在零样本分类任务中。
背景与挑战
背景概述
抗议事件数据集由Bastián González-Bustamante及其团队于2024年创建,旨在通过分析社交媒体上的政治内容,评估大型语言模型(LLMs)在文本标注任务中的表现。该数据集包含超过三百万条数字互动信息,并建立了一个基于人类编码员标注的黄金标准,用于评估社交媒体上的毒性和不文明行为。此数据集的创建不仅推动了计算社会科学和自然语言处理领域的发展,还为理解和量化数字互动中的毒性和不文明行为提供了新的工具。
当前挑战
抗议事件数据集面临的挑战主要包括两个方面:一是解决领域问题,即如何准确分类和标注社交媒体上的毒性和不文明行为;二是构建过程中遇到的挑战,如数据收集的复杂性、标注任务的难度以及模型偏见的影响。此外,依赖于私有模型可能影响研究的再现性和开放性,因此,开放源代码的LLMs成为了一个重要的替代方案,强调透明性和可重复性。
常用场景
经典使用场景
抗议事件数据集的经典使用场景主要集中在政治内容文本的标注任务上。该数据集通过收集超过三百万条数字互动信息,为研究社交媒体上的毒性和不文明行为提供了丰富的素材。研究者利用这一数据集,通过人类编码员标注的地面实况标签,创建了一个黄金标准,用于评估大型语言模型(LLMs)在政治内容标注任务中的表现。这一场景不仅推动了计算社会科学和自然语言处理领域的发展,还为理解数字互动中的毒性和不文明行为提供了新的视角。
解决学术问题
抗议事件数据集解决了计算社会科学和自然语言处理领域中关于毒性和不文明行为检测的常见学术问题。通过提供大规模的社交媒体互动数据,该数据集使得研究者能够开发和验证新的算法和模型,以自动识别和分类政治内容中的毒性和不文明行为。这不仅提高了研究的效率和准确性,还为政策制定者和社交媒体平台提供了有价值的工具,以应对在线政治讨论中的不文明现象。
实际应用
抗议事件数据集在实际应用中具有广泛的前景。首先,它可以用于社交媒体平台的自动内容审核,帮助识别和过滤含有毒性和不文明内容的帖子,从而维护社区的健康环境。其次,政府和非政府组织可以利用该数据集监测和分析抗议活动中的在线言论,以更好地理解公众情绪和行为模式,为政策制定提供数据支持。此外,学术界和研究机构可以利用这一数据集进行深入研究,探索数字互动中的社会心理和政治动态。
数据集最近研究
最新研究方向
在抗议事件数据集的最新研究中,研究者们聚焦于利用大型语言模型(LLMs)进行政治内容文本的标注任务。通过对比OpenAI的GPTs和多个开源LLMs在社交媒体上的毒性和不文明行为的标注能力,研究展示了这些模型在处理大规模数字互动数据时的潜力。特别是,Google的Perspective算法、GPT-4o和Nous Hermes 2 Mixtral在零样本分类标注中表现出色,而开源LLMs如Nous Hermes 2和Mistral OpenOrca则在性能、实施成本和计算时间之间提供了良好的平衡。这些研究不仅推动了对数字互动中毒性和不文明行为的理解,还为计算社会科学研究的未来发展提供了新的视角。
相关研究论文
- 1Benchmarking LLMs in Political Content Text-Annotation: Proof-of-Concept with Toxicity and Incivility Data莱顿大学, 荷兰 迭戈波塔莱斯大学, 智利 · 2024年
以上内容由遇见数据集搜集并总结生成



