five

Arsive/toxicity_classification_jigsaw

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Arsive/toxicity_classification_jigsaw
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含大量来自Wikipedia的评论,这些评论被人工标注为有毒行为。毒性类型包括:有毒、严重有毒、淫秽、威胁、侮辱和身份仇恨。训练数据集是从原始数据集中采样得到的,确保干净和有毒类别的样本数量相等。数据集创建过程包括从原始数据集中读取数据,筛选出有毒和干净的评论,并进行采样和合并。最后,数据集被分为训练集和验证集。
提供机构:
Arsive
原始信息汇总

数据集信息

训练数据集:

  • 数据来源:大量Wikipedia评论,由人工标注为有毒行为。
  • 有毒行为类型:
    • toxic
    • severe_toxic
    • obscene
    • threat
    • insult
    • identity_hate
  • 原始数据集链接:jigsaw_toxic_classification
  • 训练数据集特点:从原始数据集中采样,包含等量的干净和有毒样本。

数据集创建:

  • 数据读取:从原始数据集的train.csv文件中读取数据。
  • 列名定义:toxic, severe_toxic, obscene, threat, insult, identity_hate
  • 数据处理:
    • 将有毒和干净样本分开。
    • 从干净样本中随机抽取16225个样本。
    • 合并有毒和抽样后的干净样本。
    • 随机打乱数据。
    • 将数据集分为训练集和验证集,验证集占20%。

注意事项:

  • 该数据集包含具有毒性质的评论,请适当使用。

引用:

@misc{jigsaw-toxic-comment-classification-challenge, author = {cjadams, Jeffrey Sorensen, Julia Elliott, Lucas Dixon, Mark McDonald, nithum, Will Cukierski}, title = {Toxic Comment Classification Challenge}, publisher = {Kaggle}, year = {2017}, url = {https://kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作