Arsive/toxicity_classification_jigsaw
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Arsive/toxicity_classification_jigsaw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含大量来自Wikipedia的评论,这些评论被人工标注为有毒行为。毒性类型包括:有毒、严重有毒、淫秽、威胁、侮辱和身份仇恨。训练数据集是从原始数据集中采样得到的,确保干净和有毒类别的样本数量相等。数据集创建过程包括从原始数据集中读取数据,筛选出有毒和干净的评论,并进行采样和合并。最后,数据集被分为训练集和验证集。
提供机构:
Arsive
原始信息汇总
数据集信息
训练数据集:
- 数据来源:大量Wikipedia评论,由人工标注为有毒行为。
- 有毒行为类型:
- toxic
- severe_toxic
- obscene
- threat
- insult
- identity_hate
- 原始数据集链接:jigsaw_toxic_classification
- 训练数据集特点:从原始数据集中采样,包含等量的干净和有毒样本。
数据集创建:
- 数据读取:从原始数据集的
train.csv文件中读取数据。 - 列名定义:
toxic,severe_toxic,obscene,threat,insult,identity_hate - 数据处理:
- 将有毒和干净样本分开。
- 从干净样本中随机抽取16225个样本。
- 合并有毒和抽样后的干净样本。
- 随机打乱数据。
- 将数据集分为训练集和验证集,验证集占20%。
注意事项:
- 该数据集包含具有毒性质的评论,请适当使用。
引用:
@misc{jigsaw-toxic-comment-classification-challenge, author = {cjadams, Jeffrey Sorensen, Julia Elliott, Lucas Dixon, Mark McDonald, nithum, Will Cukierski}, title = {Toxic Comment Classification Challenge}, publisher = {Kaggle}, year = {2017}, url = {https://kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge} }



