ControCurator Controversy Corpus

github2018-12-04 更新2024-05-31 收录

下载链接：

https://github.com/ControCurator/controcurator-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含众包注释的争议性方面，作为ControCurator项目的一部分。通过CrowdFlower平台进行众包实验，使用CrowdTruth方法评估注释质量，涉及5048篇The Guardian文章，主要关注文章的前两段以确定争议性。

This corpus encompasses crowd-annotated contentious aspects as part of the ControCurator project. The crowdsourcing experiment was conducted via the CrowdFlower platform, employing the CrowdTruth methodology to assess annotation quality. It involves 5,048 articles from The Guardian, with a primary focus on the first two paragraphs of each article to determine contentiousness.

创建时间：

2017-02-14

原始信息汇总

数据集概述

数据集名称

ControCurator Controversy Corpus

数据集描述

该数据集包含通过ControCurator项目进行的争议性方面的众包标注。

实验设置

数据来源：使用Guardian新闻API获取的5048篇The Guardian文章。
数据处理：仅使用每篇文章的前两段。
实验平台：通过CrowdFlower平台进行众包实验。
质量评估：使用CrowdTruth方法评估标注质量、标注者和标注文章。
标注方式：通过询问标注者这些方面是否适用于给定新闻文章的主要话题来收集每个方面的相关性。

实验结果

第一阶段试点：显示在展示文章评论时，选择“我不知道”选项的标注者数量显著减少（p-value = 0.003）。此外，“是/否/我不知道”设置完成速度更快。
第二阶段试点：通过重新表述问题，选择“我不知道”选项的人数从15%降至3%（p=0.0001）。
主要实验：5048篇文章由1659名标注者标注，共产生31888个标注。评估争议性方面时，首先测量Pearson相关系数以确定方面与争议的相关性强度，然后应用线性回归以学习所有方面与争议分数之间的回归系数。情感方面被发现是最强的争议指标，而多方参与是最弱的。

相关论文

Timmermans, B., Aroyo, L., Kuhn, T., Beelen, K., Kanoulas, E., van de Velde, B., & van Eerten, G. (2017). ControCurator: Understanding Controversy Using Collective Intelligence. Collective Intelligence Conference 2017.
Timmermans, B., Aroyo, L., Kuhn, T., Beelen, K., Kanoulas, E., & van de Velde, B. (2017). ControCurator: Understanding Controversy Using Collective Intelligence. ICT Open 2017.

搜集汇总

数据集介绍

构建方式

ControCurator Controversy Corpus数据集的构建，是通过在CrowdFlower平台上进行众包实验来评估争议性方面。该实验使用了The Guardian新闻API获取的5048篇文章的前两段，并由1659名标注者完成标注，总共产生了31888个注释。数据集的质量评估采用了CrowdTruth方法，并通过两次试点研究对标注方式进行了优化。

特点

该数据集的特点在于，其众包标注过程经过精心设计，通过两次试点研究优化了标注问题表述和标注方式，确保了标注质量。数据集涵盖了多种争议性方面的标注，如情感、行为者数量和开放性等，为研究争议性话题提供了丰富的资源。研究结果表明，情感方面是最强的争议性指标，而行为者数量是最弱的指标。

使用方法

使用该数据集时，研究者可以依据数据集中的众包注释，分析不同文章的争议性方面。数据集的评价包括皮尔逊相关系数测量和线性回归分析，帮助理解不同争议性方面的权重。在使用本数据集进行研究时，请引用相关论文以表明数据的来源和研究成果。

背景与挑战

背景概述

ControCurator Controversy Corpus数据集是在[ControCurator](http://controcurator.org)项目框架下构建的，旨在通过众包方式对争议性话题进行标注与识别。该数据集的创建可追溯至2017年，由Benjamin Timmermans、Lora Aroyo等研究人员及团队开发，主要解决的是如何通过集体智能理解并识别争议性问题。该数据集的构建对新闻媒体领域的争议性话题研究产生了显著影响，为后续相关研究提供了宝贵的数据资源。

当前挑战

在构建过程中，研究团队面临着如何有效收集和评估众包标注质量的挑战。首先，实验设计需要解决的是如何通过不同类型的答案设置（如五点式量表与'是/否/我不知道'）来优化标注效率和质量。其次，研究团队在数据集构建中还探索了是否通过展示评论来帮助标注者识别文章主题的争议性，以及如何通过问题的重新表述和添加时间持久性来提高识别的准确性。此外，数据集在实际应用中如何准确反映争议性的各个方面，以及如何量化每个方面对争议性的贡献，也是当前面临的挑战。

常用场景

经典使用场景

ControCurator Controversy Corpus数据集，作为[ControCurator](http://controcurator.org)项目的一部分，汇集了众包标注的争议性方面。该数据集的经典使用场景在于，通过众包的形式对新闻文章的争议性进行评估，进而为研究新闻媒体争议性话题提供重要的数据支持。

解决学术问题

该数据集解决了学术研究中如何精确识别和量化新闻文章争议性的问题，对于理解争议话题的构成要素和情感倾向具有显著意义。通过该数据集，研究者能够更好地分析争议话题的传播和影响，为媒体研究和舆论分析等领域提供了重要工具。

衍生相关工作

基于ControCurator Controversy Corpus数据集，已经衍生出了一系列相关工作，其中包括Timmermans等人发表的《ControCurator: Understanding Controversy Using Collective Intelligence》，这些研究进一步探讨了如何利用集体智能识别争议性，并扩展了争议性话题的识别和理解方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集