Cross-context News Corpus for Protest Events
收藏arXiv2020-08-02 更新2024-06-21 收录
下载链接:
https://emw.ku.edu.tr/clef-protestnews-2019/
下载链接
链接失效反馈官方服务:
资源简介:
Cross-context News Corpus for Protest Events是由科奇大学创建的一个黄金标准语料库,包含来自不同国家和地区的英语新闻文章,专注于抗议事件。该数据集包含超过10,000篇新闻文章,通过文档、句子和词级别的标注,支持机器学习模型自动分类新闻文章和提取抗议事件相关信息。数据集的创建过程涉及随机抽样和主动学习方法,由社会和政治科学家进行标注,并通过半自动方式识别和纠正标注错误。该数据集的应用领域包括自动化文本处理系统的开发和评估,以及支持跨情境的社会和政治科学研究。
The Cross-context News Corpus for Protest Events is a gold-standard corpus developed by Koç University. It contains over 10,000 English news articles sourced from various countries and regions, with a primary focus on protest events. The corpus features document-, sentence-, and word-level annotations, enabling machine learning models to automatically classify news articles and extract information relevant to protest events. During its construction, random sampling and active learning approaches were adopted, with annotations carried out by social and political scientists, and annotation errors identified and corrected via a semi-automatic procedure. Applications of this corpus include the development and evaluation of automated text processing systems, as well as supporting cross-contextual social and political science research.
提供机构:
科奇大学
创建时间:
2020-08-02
搜集汇总
数据集介绍

构建方式
在政治学与计算语言学交叉领域,构建高质量标注语料库是推动自动化事件分析的关键基础。Cross-context News Corpus for Protest Events 的构建采用了一种严谨的多阶段方法论,旨在确保数据的代表性与标注的一致性。研究团队从印度、中国和南非的本地及国际英文新闻源中,通过随机抽样与主动学习相结合的策略采集新闻文章,以覆盖多样化的语境与表达风格。标注过程分为文档、句子和词元三个层级,由社会科学与政治学背景的标注员成对进行初始标注,并由监督员进行裁决与校正。此外,团队实施了包括抽查、内部机器学习验证与外部模型校验在内的半自动质量检查机制,整体纠正了约10%的标注错误,从而显著提升了语料库的可靠性与标注一致性。
特点
该语料库的显著特点在于其跨语境的设计与多层次标注的丰富性。语料库涵盖了来自不同国家与新闻源的超过一万篇英文新闻文章,其中八百余篇被标注为包含抗议事件,从而为研究文本风格的跨源变异与内容泛化提供了坚实基础。标注体系不仅包含文档级别的抗议事件二分类,还深入至句子级别的事件信息识别,以及在词元级别对事件触发器、参与者、时间、地点等多达七类语义信息的精细标注。这种多层次结构使得语料库能够支持从文档分类到事件论元抽取的完整自然语言处理流水线。尤为重要的是,语料库首次在抗议事件领域量化了单文档多事件分布现象,揭示了约40%的文档包含两个及以上事件,挑战了传统单事件假设的局限性。
使用方法
该语料库为自动化抗议事件知识库构建研究提供了基准数据与评估框架。研究者可利用其多层次标注数据,训练和评估如BERT等预训练模型在跨语境下的文档分类、句子分类及事件信息抽取性能。语料库以JSON(文档与句子层级)和FoLiA(词元层级)格式存储,并通过Docker镜像分发数据处理工具,确保研究可复现性且不侵犯新闻源版权。在实际应用中,该语料库已支撑了多项国际评测任务,如CLEF 2019的ProtestNews Lab和LREC 2020的AESPEN研讨会,验证了其在提升事件提取系统泛化能力与鲁棒性方面的价值。此外,基于主动学习的采样方法也为在有限标注资源下扩展至新语料或新时段提供了高效策略。
背景与挑战
背景概述
在计算社会科学与自然语言处理交叉领域,抗议事件自动抽取研究长期面临数据稀缺与标准缺失的困境。由欧洲研究委员会资助的Emerging Welfare项目团队于2020年构建了跨语境抗议事件新闻语料库,旨在为比较政治学研究提供结构化知识库构建基础。该语料库收录了来自印度、中国、南非等多国本地与国际英文媒体的万余篇新闻文本,采用文档、句子、词元三级标注体系,涵盖事件触发词、参与者、时空要素等语义单元。其创新性在于突破传统关键词过滤的局限,通过随机抽样与主动学习相结合的策略,首次实现了对多语境抗议事件分布的量化表征,为机器学习模型在跨域场景下的泛化能力评估提供了基准数据。
当前挑战
该数据集致力于解决抗议事件信息抽取中的两大核心挑战:其一,在领域问题层面,传统抗议事件检测模型受限于单一语境词汇特征与狭窄的事件定义,难以捕捉不同政治文化背景下抗议表达的语义多样性,例如印度特有的“bandh”(罢工封锁)等本土化事件类型;其二,在构建过程中,标注体系需平衡社会科学的理论严谨性与计算语言学的操作可行性,团队通过设计三层渐进式标注协议与半自动质量校验机制,克服了多事件共现、未来事件指代、跨句论元关联等复杂语言现象的标注一致性难题,最终使语料库的跨标注者一致性系数提升至可接受水平。
常用场景
经典使用场景
在计算社会科学与自然语言处理领域,跨语境新闻语料库为抗议事件提供了经典的应用场景。该数据集通过整合来自印度、中国和南非等多个国家的本地与国际英文新闻源,构建了包含文档、句子和词元三个层级的精细标注体系。研究者利用这一语料库训练机器学习模型,实现新闻文档的自动分类与抗议事件关键信息的抽取,从而支持大规模、跨地域的社会政治事件比较分析。其多语境特性使得模型能够应对不同新闻源的风格与内容差异,显著提升了事件检测系统的泛化能力与稳健性。
实际应用
在实际应用层面,该数据集为社会科学研究、政策分析与媒体监测提供了有力工具。社会科学家可利用基于该语料库训练的自动化管道,从海量新闻档案中实时提取抗议事件的时间、地点、参与者及组织者等关键信息,进而分析社会运动的时空模式、动因与影响。政府部门与国际组织可借助此类系统监测社会不稳定因素,评估政策反响。新闻机构则能利用事件抽取技术进行内容归档与趋势分析。数据集的跨语境设计确保了其在多样化媒体环境中的适用性,为全球范围内的社会政治事件追踪提供了可扩展的技术方案。
衍生相关工作
该数据集衍生了一系列重要的相关研究工作,推动了抗议事件计算分析领域的发展。基于此语料库,研究团队在CLEF 2019会议上组织了ProtestNews Lab评测任务,聚焦跨语境文档分类、句子分类及词元抽取,吸引了多国团队参与并产生了可比性能结果。随后,在LREC 2020的AESPEN研讨会上,该数据集进一步支撑了事件句子共指消解任务,促进了事件信息关联技术的研究。此外,利用该语料库训练的BERT等预训练模型微调方案,在触发词检测、参与者识别等具体任务上取得了显著性能提升,为后续研究提供了基准模型与方法参考。这些工作共同构建了一个围绕高质量标注数据的开源研究生态。
以上内容由遇见数据集搜集并总结生成



