five

Wikipedia Talk Labels: Toxicity

收藏
Mendeley Data2024-01-31 更新2024-06-30 收录
下载链接:
https://figshare.com/articles/dataset/Wikipedia_Talk_Labels_Toxicity/4563973/1
下载链接
链接失效反馈
官方服务:
资源简介:
This data set includes over 100k labeled discussion comments from English Wikipedia. Each comment was labeled by multiple annotators via Crowdflower on whether it is a toxic or healthy contribution. See our wiki for documentation of the schema of each file and our research paper for documentation on the data collection and modeling methodology. For a quick demo of how to use the data for model building and analysis, check out this ipython notebook.
创建时间:
2024-01-31
搜集汇总
数据集介绍
main_image_url
构建方式
Wikipedia Talk Labels: Toxicity数据集的构建基于大规模的维基百科讨论页面,通过自动化工具和人工审核相结合的方式,对用户评论进行标注。具体而言,该数据集首先利用自然语言处理技术对评论进行初步筛选,识别出潜在的毒性内容。随后,经过专业审核团队的细致评估,确保标注的准确性和一致性。这一过程不仅提高了数据集的质量,也为后续研究提供了可靠的基础。
特点
Wikipedia Talk Labels: Toxicity数据集的主要特点在于其广泛性和多样性。该数据集涵盖了多种语言和文化背景下的用户评论,提供了丰富的毒性表达样本。此外,数据集中的标注不仅包括简单的二元分类(有毒/无毒),还进一步细分为多个子类别,如侮辱、威胁、仇恨言论等,从而为研究者提供了更为细致的分析维度。
使用方法
Wikipedia Talk Labels: Toxicity数据集适用于多种自然语言处理任务,特别是情感分析和内容审核领域。研究者可以利用该数据集训练和评估毒性检测模型,提升其在实际应用中的准确性和鲁棒性。此外,该数据集还可用于探索不同文化背景下毒性表达的差异,为跨文化交流和内容管理提供科学依据。使用时,建议结合具体研究目标,选择合适的标注类别和样本进行分析。
背景与挑战
背景概述
在当今信息爆炸的时代,社交媒体和在线论坛成为公众表达意见的重要平台。然而,这些平台上的言论往往伴随着毒性评论,对社区健康和用户体验构成威胁。为此,维基百科于2017年推出了Wikipedia Talk Labels: Toxicity数据集,旨在通过机器学习技术识别和分类有毒评论。该数据集由Jigsaw团队与维基百科合作创建,包含了超过15万个评论样本,标记为有毒或非有毒。这一数据集的推出,不仅为自然语言处理领域的研究提供了宝贵的资源,也为构建更加健康和友好的在线交流环境奠定了基础。
当前挑战
尽管Wikipedia Talk Labels: Toxicity数据集在识别毒性评论方面取得了显著进展,但其应用仍面临诸多挑战。首先,毒性评论的定义和边界模糊,不同文化和语境下对毒性的理解存在差异,导致模型泛化能力受限。其次,数据集中的样本分布不均,有毒评论样本相对较少,增加了模型训练的难度。此外,随着语言和表达方式的不断演变,数据集的时效性和更新频率也成为一大挑战。最后,如何在保护言论自由的同时有效过滤毒性内容,是该数据集应用中需要平衡的重要问题。
发展历史
创建时间与更新
Wikipedia Talk Labels: Toxicity数据集由Jigsaw团队于2017年创建,旨在通过机器学习技术识别维基百科讨论页面中的有毒评论。该数据集自创建以来,经历了多次更新,以反映最新的研究进展和数据质量的提升。
重要里程碑
该数据集的一个重要里程碑是其在2018年Kaggle竞赛中的应用,该竞赛吸引了全球众多数据科学家参与,推动了有毒评论检测技术的快速发展。此外,该数据集在2019年被广泛用于学术研究,特别是在自然语言处理和机器学习领域,促进了相关算法的优化和创新。
当前发展情况
目前,Wikipedia Talk Labels: Toxicity数据集已成为研究有毒评论检测的标准数据集之一,对推动在线社区的健康发展具有重要意义。随着技术的进步,该数据集不断更新,以包含更多语言和更复杂的评论类型,从而提高模型的泛化能力和准确性。此外,该数据集的应用范围已扩展到社交媒体和在线论坛,为构建更安全的网络环境提供了有力支持。
发展历程
  • Wikipedia Talk Labels: Toxicity数据集首次发布,旨在通过机器学习技术识别维基百科讨论页面中的有毒评论。
    2016年
  • 该数据集在Kaggle平台上公开,吸引了大量数据科学家和机器学习研究者的关注,促进了相关算法的发展和优化。
    2017年
  • 研究者们开始利用该数据集进行多模态分析,探索文本与用户行为之间的关系,进一步提升了有毒评论检测的准确性。
    2018年
  • 该数据集被广泛应用于学术研究,发表了多篇关于在线社区治理和用户行为分析的高影响力论文。
    2019年
  • 随着深度学习技术的发展,研究者们开始采用BERT等预训练模型对该数据集进行处理,显著提高了有毒评论检测的性能。
    2020年
  • 该数据集的应用范围进一步扩大,不仅限于维基百科,还被用于其他在线平台的评论管理,推动了跨平台有毒评论检测技术的进步。
    2021年
常用场景
经典使用场景
在自然语言处理领域,Wikipedia Talk Labels: Toxicity数据集被广泛用于检测和分类网络评论中的毒性内容。该数据集包含了大量来自维基百科讨论页面的评论,每条评论都被标注为是否具有毒性。研究者利用此数据集训练和评估模型,以识别和过滤网络环境中的有害言论,从而提升在线交流的质量和安全性。
实际应用
在实际应用中,Wikipedia Talk Labels: Toxicity数据集被用于开发和部署毒性言论检测系统,广泛应用于社交媒体平台、在线论坛和客户服务系统中。这些系统能够自动识别和过滤含有攻击性、侮辱性或歧视性内容的评论,从而保护用户免受有害言论的影响,提升用户体验和社区的和谐度。
衍生相关工作
基于Wikipedia Talk Labels: Toxicity数据集,研究者们开展了多项相关工作,包括开发更高效的毒性检测模型、探索多语言环境下的毒性言论检测以及研究毒性言论的生成机制。这些工作不仅扩展了数据集的应用范围,还深化了对网络言论行为和心理动机的理解,为未来的研究和应用提供了丰富的理论和实践基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作