Count Love Protest Dataset

Name: Count Love Protest Dataset
Creator: 独立学者
Published: 2021-02-01 23:35:21
License: 暂无描述

arXiv2021-02-01 更新2024-06-21 收录

下载链接：

https://github.com/count-love/protest-data

下载链接

链接失效反馈

官方服务：

资源简介：

Count Love Protest Dataset是由独立学者Tommy Leung和L. Nathan Perkins创建的，收录了2017年至2021年间美国42,347次抗议事件的新闻报道。数据集涵盖了抗议的日期、地点、参与人数及494个描述标签，来源于3,410个美国地方新闻源。创建过程中采用了半自动化数据收集管道，通过关键词自动发现、排序和审查新闻文章。该数据集主要用于分析抗议活动的时间和地理趋势，支持公民决策和深入研究抗议与政治、社会运动的关系。

The Count Love Protest Dataset was developed by independent scholars Tommy Leung and L. Nathan Perkins. It compiles news reports covering 42,347 protest events in the United States between 2017 and 2021. The dataset encompasses key attributes including protest dates, locations, participant numbers, and 494 descriptive tags, with data sourced from 3,410 U.S. local news media outlets. A semi-automated data collection pipeline was utilized in the dataset's construction, which automatically discovers, ranks, and curates news articles via keyword-based approaches. This dataset is primarily intended for analyzing temporal and geographic trends of protest activities, and supports civic decision-making as well as in-depth research on the connections between protests, politics, and social movements.

提供机构：

独立学者

创建时间：

2021-02-01

搜集汇总

数据集介绍

构建方式

在新闻事件信息抽取领域，构建高质量数据集面临诸多挑战。Count Love Protest Dataset 的构建采用了一种半自动化的数据收集流程。该流程始于对3,410个美国地方新闻源的夜间自动化爬取，通过关键词（如“protest”、“rally”）筛选候选文章。随后，利用局部敏感哈希技术进行去重和相似文章聚类，以应对新闻稿件的重复和聚合问题。为辅助人工标注，研究团队训练了双向长短期记忆网络（BiLSTM）模型，用于文章领域检测（判断是否描述抗议事件）和事件分类（建议抗议类别、立场等标签）。最终，由两名研究员对经过预处理的文章进行人工审阅和编码，确保数据标注的准确性与一致性，从而形成了包含42,347个抗议事件记录的数据集。

使用方法

该数据集为研究新闻文本中的事件抽取提供了宝贵的资源。研究者可通过其公开的GitHub仓库获取数据，该仓库提供了新闻文章的URL列表及配套代码，可用于重建语料库。数据集可直接应用于训练和评估自然语言处理模型，特别是在事件检测、槽填充、指代消解等任务上。论文中示范了如何利用该数据集训练一个基于句法单元（如段落、句子）的低维分类LSTM网络，以自动统计单篇新闻中报道的抗议事件数量。这为后续更复杂的结构化信息抽取任务（如自动提取事件时间、地点、原因）提供了可行的技术路径和基准模型。

背景与挑战

背景概述

在社会科学与计算语言学的交叉领域，对大规模抗议事件进行结构化数据提取已成为理解社会运动动态的关键途径。Count Love Protest Dataset由独立学者Tommy Leung与L. Nathan Perkins于2021年发布，其核心研究聚焦于从2017年至2021年间美国本地新闻中自动识别并标注抗议事件，涵盖民权、移民、枪支等多元主题。该数据集通过半自动化流水线整合了138,826篇新闻文章，对应42,347起抗议事件，为研究者提供了时空分布、参与规模及抗议缘由的细粒度标注，显著推动了事件抽取、指代消解等自然语言处理任务在社会科学中的应用，并赋能公民决策与纵向分析。

当前挑战

该数据集旨在解决从新闻文本中提取抗议事件的结构化信息这一领域挑战，涉及复杂的事件计数、多槽位填充及指代消解问题。例如，新闻报道常包含对同一事件的多重描述、未来与过去事件的混合提及，以及抗议与反抗议的嵌套关系，这要求模型具备深层语义理解能力。在构建过程中，研究团队面临诸多困难：自动化爬虫需从数千个新闻源中过滤非相关内容（如股市“反弹”或体育“示威”），同时处理新闻文章的重复与聚合现象；此外，手动标注需应对抗议标签的多样性（494种标签）与非互斥性，而有限的团队规模（两名研究者）使得维持标注一致性成为持续挑战。

常用场景

经典使用场景

在社会科学与计算语言学的交叉领域，Count Love Protest Dataset 为研究者提供了分析美国社会运动动态的宝贵资源。该数据集通过系统化收集2017年至2021年间地方新闻报道中的抗议事件，涵盖了公民权利、移民、枪支管控等多元主题，使得学者能够深入探究抗议活动的时空分布模式与社会议题的演变轨迹。其经典应用场景在于利用自然语言处理技术，从非结构化新闻文本中自动提取事件细节，从而支持大规模纵向比较研究，揭示社会集体行动与政策变迁之间的潜在关联。

解决学术问题

该数据集有效应对了事件抽取领域长期存在的核心挑战，包括领域检测、槽填充与共指消解等自然语言处理难题。通过提供手动标注的抗议事件结构化数据，它使得研究人员能够规避传统手工编码方法的高耗时缺陷，转而专注于开发更高效的自动化信息提取模型。其意义在于推动了事件抽取技术的进步，并为社会科学研究提供了可靠的数据基础，使得分析抗议频率、主题演化及其社会影响成为可能，从而深化了对社会运动机制的理解。

实际应用

在实际应用层面，Count Love Protest Dataset 为政策制定者、新闻从业者与社会活动家提供了数据驱动的决策支持工具。通过聚合地方新闻中的抗议信息，用户能够实时追踪特定议题的社会反响，例如警察暴力或环境政策的公众抗议规模。该数据集使得结构化查询成为现实，如统计某一时期内针对特定议题的抗议次数，从而帮助识别社会热点与民意趋势，促进基于证据的公共讨论与政策评估。

数据集最近研究