Arsive/toxicity_classification_jigsaw

Name: Arsive/toxicity_classification_jigsaw
Creator: Arsive
Published: 2023-10-03 12:51:28
License: 暂无描述

Hugging Face2023-10-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Arsive/toxicity_classification_jigsaw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含大量来自Wikipedia的评论，这些评论被人工标注为有毒行为。毒性类型包括：有毒、严重有毒、淫秽、威胁、侮辱和身份仇恨。训练数据集是从原始数据集中采样得到的，确保干净和有毒类别的样本数量相等。数据集创建过程包括从原始数据集中读取数据，筛选出有毒和干净的评论，并进行采样和合并。最后，数据集被分为训练集和验证集。

提供机构：

Arsive

原始信息汇总

数据集信息

训练数据集：

数据来源：大量Wikipedia评论，由人工标注为有毒行为。
有毒行为类型：
- toxic
- severe_toxic
- obscene
- threat
- insult
- identity_hate
原始数据集链接：jigsaw_toxic_classification
训练数据集特点：从原始数据集中采样，包含等量的干净和有毒样本。

数据集创建：

数据读取：从原始数据集的train.csv文件中读取数据。
列名定义：toxic, severe_toxic, obscene, threat, insult, identity_hate
数据处理：
- 将有毒和干净样本分开。
- 从干净样本中随机抽取16225个样本。
- 合并有毒和抽样后的干净样本。
- 随机打乱数据。
- 将数据集分为训练集和验证集，验证集占20%。

注意事项：

该数据集包含具有毒性质的评论，请适当使用。

引用：

@misc{jigsaw-toxic-comment-classification-challenge, author = {cjadams, Jeffrey Sorensen, Julia Elliott, Lucas Dixon, Mark McDonald, nithum, Will Cukierski}, title = {Toxic Comment Classification Challenge}, publisher = {Kaggle}, year = {2017}, url = {https://kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集