Constructiveness and Toxicity Corpus - CTC

github2018-07-25 更新2024-05-31 收录

下载链接：

https://github.com/sfu-discourse-lab/Constructiveness_Toxicity_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,121条对《环球邮报》网站上观点文章的评论，这些评论被注释为建设性和毒性。评论涉及多种主题，如技术、移民、恐怖主义、政治等。数据集通过CrowdFlower平台进行注释，分别评估评论的建设性和毒性程度。

This dataset comprises 1,121 comments on opinion articles from The Globe and Mail website, annotated for constructiveness and toxicity. The comments cover a variety of topics, including technology, immigration, terrorism, and politics. The dataset was annotated via the CrowdFlower platform, assessing the degree of constructiveness and toxicity of each comment.

创建时间：

2017-05-24

原始信息汇总

Constructiveness and Toxicity Corpus - CTC

数据概述

数据来源：1,121条评论，来源于加拿大报纸《The Globe and Mail》网站上的意见文章。
评论内容：涉及10篇不同主题的文章，包括技术、移民、恐怖主义、政治、预算、社会问题、宗教、财产和难民。
评论类型：一半文章仅包含顶级评论，另一半文章包含顶级评论及其回复。

数据标注

标注平台：使用CrowdFlower进行众包标注。
标注内容：
- 建设性：标注者首先阅读文章，然后判断显示的评论是否具有建设性。
- 毒性：通过多选题形式评估评论的毒性程度，选项包括“非常毒性”、“毒性”、“轻微毒性”和“无毒性”。

相关研究

发表会议：该研究在2017年8月于温哥华举行的计算语言学协会的第一届在线滥用语言研讨会上发表。
论文标题：Constructive language in news comments.
作者：Varada Kolhatkar 和 Maite Taboada.

搜集汇总

数据集介绍

构建方式

本数据集，Constructiveness and Toxicity Corpus - CTC，是基于The Globe and Mail报纸网站上的评论构建而成。该数据集包含1,121条针对10篇不同主题文章的评论，这些文章主题涵盖了科技、移民、恐怖主义、政治、预算、社会问题、宗教、房产和难民等。数据集的构建采用CrowdFlower众包平台进行注释，确保了数据的多样性和全面性。

特点

CTC数据集的特点在于其双重要素标注：建设性和毒性。注释者首先阅读相关文章，然后对评论的建设性进行评估；对于毒性，注释者则需从四个选项中选择评论的毒性程度。这种标注方式为研究在线评论中的互动质量和氛围提供了丰富的信息资源。

使用方法

使用CTC数据集时，研究者可依据CSV文件中的注释，进行建设性和毒性分析。用户需了解数据集中的注释规则和众包平台的评估指导，以便准确解读数据集的内在价值，并有效地应用于相关研究领域，如自然语言处理、在线社区健康度分析等。

背景与挑战

背景概述

Constructiveness and Toxicity Corpus - CTC数据集，诞生于2017年，由Varada Kolhatkar与Maite Taboada等研究人员构建，旨在为评估网络新闻评论的建设性与毒性提供基准。该数据集依托于加拿大《环球与邮件》报网站上的评论，涉及科技、移民、恐怖主义、政治等多个领域，通过众包的方式对评论的建设性和毒性进行标注。CTC数据集的研究成果发表在2017年计算语言学协会会议上，对网络语言滥用检测领域产生了重要影响。

当前挑战

CTC数据集面临的挑战主要包括：如何准确界定评论的建设性与毒性标准，以适应不断变化的网络语言环境；在构建过程中，如何保证众包标注的质量与一致性；以及如何处理由于注释者主观性带来的标注偏差。此外，数据集覆盖的主题多样性和评论层级（顶级评论与回复评论）的平衡，也为研究带来了额外的复杂性。

常用场景

经典使用场景

在自然语言处理领域，尤其是针对在线交流的文本分析，Constructiveness and Toxicity Corpus - CTC 数据集提供了一个重要的资源。该数据集被广泛用于评估和训练模型，以识别新闻评论中的建设性及毒性语言。经典的使用场景包括构建分类器，用于自动筛选在线评论中的有益对话与有害言论，从而为在线社区的维护提供技术支持。

实际应用

在实际应用中，CTC 数据集可以被新闻机构、社交媒体平台及内容管理系统采用，以自动监测和过滤不当言论，保障用户体验和社区安全。此外，该数据集还可用于教育和培训，帮助相关专业人士识别和应对网络语言的挑战。

衍生相关工作

基于CTC 数据集，学术界衍生出了一系列相关工作，包括但不限于构建更为复杂的言论分析模型、开展跨文化的言论毒性研究，以及深入探讨评论的建设性与其影响因素，这些研究进一步拓展了该数据集的应用范围和学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集