five

TurkuNLP/jigsaw_toxicity_pred_fi

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/jigsaw_toxicity_pred_fi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于DeepL机器翻译的Jigsaw毒性数据集的芬兰语版本,最初来自Kaggle竞赛。数据集提出了一个多标签文本分类问题,包含标签`identity_attack`、`insult`、`obscene`、`severe_toxicity`、`threat`和`toxicity`。数据字段包括多个标签字段、语言字段和文本字段。数据集的分割与原始英文数据相同。由于DeepL的条款和条件,该数据集不能用于任何机器翻译工作。数据集内容根据Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)分发。

该数据集是基于DeepL机器翻译的Jigsaw毒性数据集的芬兰语版本,最初来自Kaggle竞赛。数据集提出了一个多标签文本分类问题,包含标签`identity_attack`、`insult`、`obscene`、`severe_toxicity`、`threat`和`toxicity`。数据字段包括多个标签字段、语言字段和文本字段。数据集的分割与原始英文数据相同。由于DeepL的条款和条件,该数据集不能用于任何机器翻译工作。数据集内容根据Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)分发。
提供机构:
TurkuNLP
原始信息汇总

数据集概述

基本信息

  • 许可证: CC BY-SA 4.0
  • 任务类别: 文本分类
  • 任务ID: 多标签分类
  • 语言: 芬兰语
  • 多语言性: 翻译
  • 标签: 毒性, 多标签
  • 源数据集: 扩展自 jigsaw_toxicity_pred
  • 大小分类: 100K<n<1M

数据集描述

  • 数据集摘要: 该数据集是基于DeepL机器翻译的芬兰语版本的Jigsaw毒性数据集。原数据集来自Kaggle竞赛。
  • 数据问题: 多标签文本分类问题,包含标签 identity_attack, insult, obscene, severe_toxicity, threat, toxicity

数据字段

  • label_identity_attack, label_insult, label_obscene, label_severe_toxicity, label_threat, label_toxicity: int64 特征,表示文本中是否存在相应类别的毒性(0表示不存在,1表示存在)。
  • lang: string 特征,表示语言。
  • text: string 特征,表示文本内容。

数据分割

  • 分割: 与原始英语数据相同。
  • 具体分割:
    • 训练集: 159571条数据
    • 测试集: 63978条数据

评估结果

  • 模型: TurkuNLP/bert-large-finnish-cased-v1
  • 评估指标: F1-micro, Precision, Recall
  • 结果:
    • F1-micro: 0.66
    • Precision: 0.58
    • Recall: 0.76

使用考虑

  • 由于DeepL的使用条款,该数据集不得用于任何机器翻译工作,包括机器翻译系统开发和评估。

许可证信息

引用信息

  • 引用时使用提供的bibtex。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作