TurkuNLP/jigsaw_toxicity_pred_fi
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/jigsaw_toxicity_pred_fi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于DeepL机器翻译的Jigsaw毒性数据集的芬兰语版本,最初来自Kaggle竞赛。数据集提出了一个多标签文本分类问题,包含标签`identity_attack`、`insult`、`obscene`、`severe_toxicity`、`threat`和`toxicity`。数据字段包括多个标签字段、语言字段和文本字段。数据集的分割与原始英文数据相同。由于DeepL的条款和条件,该数据集不能用于任何机器翻译工作。数据集内容根据Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)分发。
该数据集是基于DeepL机器翻译的Jigsaw毒性数据集的芬兰语版本,最初来自Kaggle竞赛。数据集提出了一个多标签文本分类问题,包含标签`identity_attack`、`insult`、`obscene`、`severe_toxicity`、`threat`和`toxicity`。数据字段包括多个标签字段、语言字段和文本字段。数据集的分割与原始英文数据相同。由于DeepL的条款和条件,该数据集不能用于任何机器翻译工作。数据集内容根据Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)分发。
提供机构:
TurkuNLP
原始信息汇总
数据集概述
基本信息
- 许可证: CC BY-SA 4.0
- 任务类别: 文本分类
- 任务ID: 多标签分类
- 语言: 芬兰语
- 多语言性: 翻译
- 标签: 毒性, 多标签
- 源数据集: 扩展自 jigsaw_toxicity_pred
- 大小分类: 100K<n<1M
数据集描述
- 数据集摘要: 该数据集是基于DeepL机器翻译的芬兰语版本的Jigsaw毒性数据集。原数据集来自Kaggle竞赛。
- 数据问题: 多标签文本分类问题,包含标签
identity_attack,insult,obscene,severe_toxicity,threat,toxicity。
数据字段
label_identity_attack,label_insult,label_obscene,label_severe_toxicity,label_threat,label_toxicity:int64特征,表示文本中是否存在相应类别的毒性(0表示不存在,1表示存在)。lang:string特征,表示语言。text:string特征,表示文本内容。
数据分割
- 分割: 与原始英语数据相同。
- 具体分割:
- 训练集: 159571条数据
- 测试集: 63978条数据
评估结果
- 模型: TurkuNLP/bert-large-finnish-cased-v1
- 评估指标: F1-micro, Precision, Recall
- 结果:
- F1-micro: 0.66
- Precision: 0.58
- Recall: 0.76
使用考虑
- 由于DeepL的使用条款,该数据集不得用于任何机器翻译工作,包括机器翻译系统开发和评估。
许可证信息
- 内容根据Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)分发。
- 数据集内容的版权属于原始版权持有者。
引用信息
- 引用时使用提供的bibtex。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



