monology/jigsaw

Name: monology/jigsaw
Creator: monology
Published: 2024-02-07 17:50:08
License: 暂无描述

Hugging Face2024-02-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/monology/jigsaw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个文本评论及其对应的多个二元分类标签，如toxic（有毒）、severe_toxic（严重有毒）、obscene（淫秽）、threat（威胁）、insult（侮辱）和identity_hate（身份仇恨）。每个标签都有false和true两个类别。数据集分为训练集和测试集，分别包含159571和63978个样本。数据集的下载大小为57648132字节，总大小为99524257字节。

This dataset is primarily used for text classification tasks, specifically detecting undesirable content in online comments. It includes a main feature comment_text and six categorical label features to indicate whether the comment contains toxic, severe_toxic, obscene, threat, insult, and identity_hate content. The dataset is divided into a training set and a test set, containing 159571 and 63978 samples respectively.

提供机构：

monology

原始信息汇总

数据集概述

特征信息

comment_text: 类型为字符串。
toxic: 类型为类别标签，标签名称为 false 和 true。
severe_toxic: 类型为类别标签，标签名称为 false 和 true。
obscene: 类型为类别标签，标签名称为 false 和 true。
threat: 类型为类别标签，标签名称为 false 和 true。
insult: 类型为类别标签，标签名称为 false 和 true。
identity_hate: 类型为类别标签，标签名称为 false 和 true。

数据分割

train: 包含 159571 个样本，大小为 71282294 字节。
test: 包含 63978 个样本，大小为 28241963 字节。

数据集大小

下载大小: 57648132 字节。
数据集大小: 99524257 字节。

配置信息

config_name: default
- data_files:
  - train: 路径为 data/train-*
  - test: 路径为 data/test-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的有害内容检测数据集对于模型训练至关重要。monology/jigsaw数据集源自Kaggle平台上的Toxic Comment Classification Challenge竞赛，其构建过程依托于维基百科的在线评论数据。数据采集后，经过专业标注团队对每条评论进行多维度的人工标注，涵盖毒性、严重毒性、淫秽、威胁、侮辱及身份仇恨六类标签，确保了标注的准确性与全面性。数据集划分为训练集与测试集，分别包含159,571条和63,978条样本，为模型开发提供了坚实的基准。

特点

该数据集在有害内容检测研究中展现出显著特点，其多标签分类结构允许同时识别评论中的多种有害属性，而非单一二元判断。每条评论对应六个独立的二分类标签，反映了网络言论中复杂的负面内容交织现象。数据来源于真实网络环境，语言风格多样，包含大量非正式表达与隐晦攻击，提升了模型的泛化能力。特征设计简洁明了，仅包含评论文本与标签字段，便于研究者快速集成至现有流程，同时支持细粒度分析与模型评估。

使用方法

针对有害内容检测任务，该数据集可直接应用于监督学习模型的训练与评估。使用者需加载训练集进行模型训练，利用测试集验证性能，重点关注多标签分类下的精确率与召回率指标。在预处理阶段，建议对评论文本进行清洗与标准化，如去除特殊字符或应用词干提取，以优化特征表示。模型可基于传统机器学习方法或深度学习架构，如BERT等预训练模型，通过微调适应多标签输出。数据集亦适用于迁移学习研究，探索跨领域有害内容检测的适应性。

背景与挑战

背景概述

随着互联网社交平台的蓬勃发展，用户生成内容的规模呈指数级增长，其中在线评论的毒性检测成为自然语言处理领域的关键研究方向。Jigsaw数据集由谷歌旗下的Jigsaw团队于2017年构建，旨在通过多标签分类任务识别文本中的多种有害内容，如侮辱、威胁和身份仇恨等。该数据集源自维基百科的讨论页面，涵盖了超过15万条注释，为构建更安全的在线环境提供了重要的数据基础，推动了内容审核技术的进步，并在学术界和工业界引发了广泛关注。

当前挑战

Jigsaw数据集面临的挑战主要体现在两个方面：在领域问题层面，毒性检测任务本身具有高度主观性和语境依赖性，不同文化背景下的语言表达差异使得模型泛化能力受限，同时细粒度标签如身份仇恨的识别需要深入理解社会语境，增加了分类难度。在构建过程中，数据标注的复杂性不容忽视，注释者之间对毒性定义的一致性难以保证，导致标签噪声问题；此外，原始文本中的隐晦表达和讽刺性语言进一步加剧了数据清洗和标注的挑战，影响了数据集的可靠性和实用性。

常用场景

经典使用场景

在自然语言处理领域，monology/jigsaw数据集作为在线评论毒性检测的基准资源，其经典使用场景集中于训练和评估多标签分类模型。该数据集通过标注评论在毒性、严重毒性、淫秽、威胁、侮辱和身份仇恨六个维度的标签，为研究者提供了丰富的语义分析素材。模型能够学习识别文本中隐含的恶意内容，从而提升自动化内容审核的准确性与效率。

解决学术问题

该数据集有效解决了在线社区中恶意内容自动识别的学术挑战，尤其是在多标签细粒度分类任务上。传统方法往往难以区分不同类别的有害言论，而jigsaw数据集通过精确的标注体系，帮助研究者探索文本特征与多种毒性维度之间的复杂关联。这不仅推动了自然语言处理中偏见缓解和公平性研究的发展，还为构建更安全、包容的数字环境提供了理论支撑。

衍生相关工作

围绕jigsaw数据集，学术界衍生了一系列经典研究工作，包括基于深度学习的多任务毒性分类模型、对抗性训练方法以及偏差检测框架。这些工作不仅提升了模型在复杂语境下的泛化能力，还促进了公平机器学习领域的发展。例如，许多研究利用该数据集探索了毒性检测中的种族和性别偏见问题，为构建更公正的算法奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集