Reddit Collective Action Participation Dataset
收藏arXiv2025-01-13 更新2025-01-15 收录
下载链接:
https://github.com/ariannap13/extract_collective_action
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由哥本哈根信息技术大学的研究团队创建,旨在通过社交媒体帖子检测集体行动的参与表达。数据集包含369条标注的Reddit评论,分为四个参与级别:问题解决、行动呼吁、意图表达和实际执行。数据通过众包方式标注,并使用了数据增强技术来应对高参与级别数据的稀疏性问题。数据集的应用领域包括计算社会科学研究,特别是集体行动的社会动态分析,旨在提供可靠的标注数据以支持在线行为变化的研究。通过该数据集,研究人员可以更好地理解社交媒体用户在集体行动中的参与路径,并为相关领域的定量研究提供基础数据支持。
This dataset was developed by a research team from the IT University of Copenhagen, with the objective of detecting participatory expressions of collective action through social media posts. It contains 369 annotated Reddit comments, which are categorized into four participation levels: problem-solving, call to action, expression of intent, and actual implementation. The comments were annotated via crowdsourcing, and data augmentation techniques were employed to address the sparsity issue of data samples corresponding to high participation levels. The application scenarios of this dataset cover computational social science research, particularly social dynamic analysis of collective action, with the goal of providing reliable annotated data to support studies on online behavioral changes. Using this dataset, researchers can gain a deeper understanding of the participation pathways of social media users in collective action, and provide foundational data support for quantitative research in related fields.
提供机构:
哥本哈根信息技术大学
创建时间:
2025-01-13
搜集汇总
数据集介绍

构建方式
Reddit Collective Action Participation Dataset的构建基于Reddit平台上的社交媒体评论,通过众包方式进行人工标注。首先,研究人员从Reddit的40,000个子论坛中筛选出包含‘activism’、‘activist’或‘rights’关键词的73个子论坛,最终选择了42个与研究相关的子论坛,共计1.2亿条评论。为了确保评论与集体行动相关,研究人员使用了一个包含47个与集体行动相关词汇的词典进行筛选,并保留了至少匹配两个词汇的评论。随后,通过Amazon Mechanical Turk平台,研究人员对这些评论进行了多层次的标注,分为‘问题-解决方案’、‘行动呼吁’、‘意图’和‘执行’四个参与级别。为确保标注质量,研究人员采用了多种质量控制策略,最终生成了包含369条标注评论的数据集。
特点
该数据集的特点在于其多层次标注结构,能够捕捉到集体行动参与的不同阶段。数据集不仅包含了对集体行动问题的识别,还涵盖了从行动呼吁到实际执行的完整参与过程。此外,数据集通过数据增强技术(如使用Llama3模型生成合成样本)解决了部分类别样本不足的问题,确保了模型的训练效果。数据集的另一个显著特点是其主题无关性,能够应用于广泛的集体行动话题,而不仅限于特定领域。
使用方法
该数据集的使用方法主要包括两个阶段:首先,通过二分类模型判断评论是否表达了集体行动的参与;其次,对于表达参与的评论,使用多分类模型进一步识别其参与的具体级别。研究人员评估了多种自然语言处理模型,包括BERT、零样本Llama3模型、监督微调Llama3模型和直接偏好优化Llama3模型。实验表明,较小的BERT模型在检测集体行动参与方面表现优异,且计算资源需求较低。该数据集的应用不仅限于Reddit平台,还可用于其他社交媒体平台上的集体行动分析,为计算社会科学研究提供了新的工具和数据支持。
背景与挑战
背景概述
Reddit Collective Action Participation Dataset 是由哥本哈根信息技术大学的 Arianna Pera 和 Luca Maria Aiello 于2025年创建的一个数据集,旨在通过社交媒体数据研究集体行动的参与路径。该数据集基于社会运动动员的理论框架,通过众包标注的 Reddit 评论数据,训练了 BERT 和 Llama3 模型,以识别用户在社交媒体上表达集体行动参与的四个层次:识别集体问题、参与行动号召、表达行动意图以及报告实际参与。该数据集为计算社会科学领域提供了新的可靠标注数据,有助于研究集体行动的社会动态。
当前挑战
该数据集面临的挑战主要包括两个方面。首先,集体行动的参与表达在社交媒体上相对稀少,尤其是高层次的参与,这导致数据稀疏性问题,需要通过数据增强技术来生成足够的训练数据。其次,构建过程中,如何准确标注不同层次的集体行动参与是一个复杂任务,尤其是在众包标注中,确保标注者理解并正确应用复杂的分类标准。此外,模型在捕捉集体行动参与的细微差别时,需要在计算资源与任务需求之间找到平衡,尤其是在使用大型语言模型时,计算成本显著增加。
常用场景
经典使用场景
Reddit Collective Action Participation Dataset 主要用于分析社交媒体用户在集体行动中的参与程度。该数据集通过自然语言处理技术,识别用户在Reddit上的评论中表达的不同层次的集体行动参与,包括问题识别、呼吁行动、表达行动意图以及报告实际参与。这一数据集为研究社交媒体在动员集体行动中的作用提供了重要的数据支持。
解决学术问题
该数据集解决了集体行动研究中缺乏大规模、细粒度数据的难题。通过提供经过人工标注的Reddit评论数据,研究者可以更准确地量化个体在社交媒体上的集体行动参与程度。此外,该数据集还帮助研究者理解不同社交媒体社区在集体行动中的参与模式,推动了计算社会科学领域对集体行动动态的研究。
衍生相关工作
基于该数据集,研究者开发了一系列先进的自然语言处理模型,如BERT和Llama3模型,用于自动检测社交媒体上的集体行动参与表达。这些模型不仅在学术研究中得到了广泛应用,还被应用于实际的社会运动分析中。此外,该数据集还催生了许多相关研究,探讨了社交媒体用户的社会人口学特征与集体行动参与之间的关系,进一步丰富了计算社会科学的研究内容。
以上内容由遇见数据集搜集并总结生成



