TurkuNLP/jigsaw_toxicity_pred_fi

Name: TurkuNLP/jigsaw_toxicity_pred_fi
Creator: TurkuNLP
Published: 2023-09-25 09:56:33
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TurkuNLP/jigsaw_toxicity_pred_fi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于DeepL机器翻译的Jigsaw毒性数据集的芬兰语版本，最初来自Kaggle竞赛。数据集提出了一个多标签文本分类问题，包含标签`identity_attack`、`insult`、`obscene`、`severe_toxicity`、`threat`和`toxicity`。数据字段包括多个标签字段、语言字段和文本字段。数据集的分割与原始英文数据相同。由于DeepL的条款和条件，该数据集不能用于任何机器翻译工作。数据集内容根据Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)分发。

提供机构：

TurkuNLP

原始信息汇总

数据集概述

基本信息

许可证: CC BY-SA 4.0
任务类别: 文本分类
任务ID: 多标签分类
语言: 芬兰语
多语言性: 翻译
标签: 毒性, 多标签
源数据集: 扩展自 jigsaw_toxicity_pred
大小分类: 100K<n<1M

数据集描述

数据集摘要: 该数据集是基于DeepL机器翻译的芬兰语版本的Jigsaw毒性数据集。原数据集来自Kaggle竞赛。
数据问题: 多标签文本分类问题，包含标签 identity_attack, insult, obscene, severe_toxicity, threat, toxicity。

数据字段

label_identity_attack, label_insult, label_obscene, label_severe_toxicity, label_threat, label_toxicity: int64 特征，表示文本中是否存在相应类别的毒性（0表示不存在，1表示存在）。
lang: string 特征，表示语言。
text: string 特征，表示文本内容。