Wikipedia Talk Labels: Toxicity

Mendeley Data2024-01-31 更新2024-06-30 收录

下载链接：

https://figshare.com/articles/dataset/Wikipedia_Talk_Labels_Toxicity/4563973/1

下载链接

链接失效反馈

官方服务：

资源简介：

This data set includes over 100k labeled discussion comments from English Wikipedia. Each comment was labeled by multiple annotators via Crowdflower on whether it is a toxic or healthy contribution. See our wiki for documentation of the schema of each file and our research paper for documentation on the data collection and modeling methodology. For a quick demo of how to use the data for model building and analysis, check out this ipython notebook.

创建时间：

2024-01-31

搜集汇总

数据集介绍

构建方式

Wikipedia Talk Labels: Toxicity数据集的构建基于大规模的维基百科讨论页面，通过自动化工具和人工审核相结合的方式，对用户评论进行标注。具体而言，该数据集首先利用自然语言处理技术对评论进行初步筛选，识别出潜在的毒性内容。随后，经过专业审核团队的细致评估，确保标注的准确性和一致性。这一过程不仅提高了数据集的质量，也为后续研究提供了可靠的基础。

特点

Wikipedia Talk Labels: Toxicity数据集的主要特点在于其广泛性和多样性。该数据集涵盖了多种语言和文化背景下的用户评论，提供了丰富的毒性表达样本。此外，数据集中的标注不仅包括简单的二元分类（有毒/无毒），还进一步细分为多个子类别，如侮辱、威胁、仇恨言论等，从而为研究者提供了更为细致的分析维度。

使用方法

Wikipedia Talk Labels: Toxicity数据集适用于多种自然语言处理任务，特别是情感分析和内容审核领域。研究者可以利用该数据集训练和评估毒性检测模型，提升其在实际应用中的准确性和鲁棒性。此外，该数据集还可用于探索不同文化背景下毒性表达的差异，为跨文化交流和内容管理提供科学依据。使用时，建议结合具体研究目标，选择合适的标注类别和样本进行分析。

背景与挑战

背景概述

在当今信息爆炸的时代，社交媒体和在线论坛成为公众表达意见的重要平台。然而，这些平台上的言论往往伴随着毒性评论，对社区健康和用户体验构成威胁。为此，维基百科于2017年推出了Wikipedia Talk Labels: Toxicity数据集，旨在通过机器学习技术识别和分类有毒评论。该数据集由Jigsaw团队与维基百科合作创建，包含了超过15万个评论样本，标记为有毒或非有毒。这一数据集的推出，不仅为自然语言处理领域的研究提供了宝贵的资源，也为构建更加健康和友好的在线交流环境奠定了基础。

当前挑战

尽管Wikipedia Talk Labels: Toxicity数据集在识别毒性评论方面取得了显著进展，但其应用仍面临诸多挑战。首先，毒性评论的定义和边界模糊，不同文化和语境下对毒性的理解存在差异，导致模型泛化能力受限。其次，数据集中的样本分布不均，有毒评论样本相对较少，增加了模型训练的难度。此外，随着语言和表达方式的不断演变，数据集的时效性和更新频率也成为一大挑战。最后，如何在保护言论自由的同时有效过滤毒性内容，是该数据集应用中需要平衡的重要问题。

发展历史

创建时间与更新

Wikipedia Talk Labels: Toxicity数据集由Jigsaw团队于2017年创建，旨在通过机器学习技术识别维基百科讨论页面中的有毒评论。该数据集自创建以来，经历了多次更新，以反映最新的研究进展和数据质量的提升。

重要里程碑

该数据集的一个重要里程碑是其在2018年Kaggle竞赛中的应用，该竞赛吸引了全球众多数据科学家参与，推动了有毒评论检测技术的快速发展。此外，该数据集在2019年被广泛用于学术研究，特别是在自然语言处理和机器学习领域，促进了相关算法的优化和创新。

当前发展情况

目前，Wikipedia Talk Labels: Toxicity数据集已成为研究有毒评论检测的标准数据集之一，对推动在线社区的健康发展具有重要意义。随着技术的进步，该数据集不断更新，以包含更多语言和更复杂的评论类型，从而提高模型的泛化能力和准确性。此外，该数据集的应用范围已扩展到社交媒体和在线论坛，为构建更安全的网络环境提供了有力支持。

发展历程

Wikipedia Talk Labels: Toxicity数据集首次发布，旨在通过机器学习技术识别维基百科讨论页面中的有毒评论。
2016年
该数据集在Kaggle平台上公开，吸引了大量数据科学家和机器学习研究者的关注，促进了相关算法的发展和优化。
2017年
研究者们开始利用该数据集进行多模态分析，探索文本与用户行为之间的关系，进一步提升了有毒评论检测的准确性。
2018年
该数据集被广泛应用于学术研究，发表了多篇关于在线社区治理和用户行为分析的高影响力论文。
2019年
随着深度学习技术的发展，研究者们开始采用BERT等预训练模型对该数据集进行处理，显著提高了有毒评论检测的性能。
2020年
该数据集的应用范围进一步扩大，不仅限于维基百科，还被用于其他在线平台的评论管理，推动了跨平台有毒评论检测技术的进步。
2021年

常用场景

经典使用场景

在自然语言处理领域，Wikipedia Talk Labels: Toxicity数据集被广泛用于检测和分类网络评论中的毒性内容。该数据集包含了大量来自维基百科讨论页面的评论，每条评论都被标注为是否具有毒性。研究者利用此数据集训练和评估模型，以识别和过滤网络环境中的有害言论，从而提升在线交流的质量和安全性。

实际应用

在实际应用中，Wikipedia Talk Labels: Toxicity数据集被用于开发和部署毒性言论检测系统，广泛应用于社交媒体平台、在线论坛和客户服务系统中。这些系统能够自动识别和过滤含有攻击性、侮辱性或歧视性内容的评论，从而保护用户免受有害言论的影响，提升用户体验和社区的和谐度。

衍生相关工作

基于Wikipedia Talk Labels: Toxicity数据集，研究者们开展了多项相关工作，包括开发更高效的毒性检测模型、探索多语言环境下的毒性言论检测以及研究毒性言论的生成机制。这些工作不仅扩展了数据集的应用范围，还深化了对网络言论行为和心理动机的理解，为未来的研究和应用提供了丰富的理论和实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集