five

TurkuNLP/Suomi24-toxicity-annotated

收藏
Hugging Face2023-06-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/Suomi24-toxicity-annotated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Suomi-24-toxicity-annotated,包含从Suomi24论坛中采样的评论,这些评论通过毒性分类器的预测进行采样,并特别关注了难以分类的边界案例。每个标签下采样了500条评论。注释过程使用了Perspective的标签,每个评论只标注一个标签,尽管有些评论可能出现在两个标签中。注释过程包括初始注释、讨论和最终注释。数据集中的例子是那些经过一致同意或通过讨论解决的评论。数据集的语言为芬兰语,主要用于文本分类任务,特别是毒性检测。

该数据集名为Suomi-24-toxicity-annotated,包含从Suomi24论坛中采样的评论,这些评论通过毒性分类器的预测进行采样,并特别关注了难以分类的边界案例。每个标签下采样了500条评论。注释过程使用了Perspective的标签,每个评论只标注一个标签,尽管有些评论可能出现在两个标签中。注释过程包括初始注释、讨论和最终注释。数据集中的例子是那些经过一致同意或通过讨论解决的评论。数据集的语言为芬兰语,主要用于文本分类任务,特别是毒性检测。
提供机构:
TurkuNLP
原始信息汇总

数据集概述

数据集名称

  • Suomi-24-toxicity-annotated

数据集内容

  • 包含从Suomi24采样的评论,使用毒性分类器进行预测。
  • 每个标签采样500条评论,强调边缘案例。
  • 注释过程使用Perspective的标签,与TurkuNLP/wikipedia-toxicity-data-fi相同。
  • 每个评论仅注释一个标签,少数评论出现在两个标签中。

数据集规模

  • 规模类别:1K<n<10K

数据集语言

  • 语言:芬兰语(fi)

数据集任务类别

  • 任务类别:文本分类

数据集标签定义

  • THREAT: 描述对个人或团体的伤害、暴力意图。
  • THREATENING: 威胁或鼓励暴力或伤害,包括自伤。
  • PROFANITY: 亵渎、诅咒或其他淫秽或亵渎语言。
  • INSULT: 对个人或群体的侮辱、煽动或负面评论。
  • IDENTITY ATTACK: 针对个人身份的负面或仇恨评论。
  • TOXICITY: 可能导致人们离开讨论的无礼、不尊重或不合理评论。
  • SEVERE TOXICITY: 非常仇恨、攻击性、不尊重的评论,或非常可能导致用户放弃分享观点。

注释指南

  • Obscene: 包括轻微的咒骂、拼写错误、掩码或其他变体,以及不适当主题或上下文中的性暗示词汇。
  • Threat: 包括自杀或自伤评论、煽动暴力或自伤、假设情况和希望对某人造成伤害。
  • Insult: 针对群体的侮辱性术语(也包括身份攻击)。
  • Identity attack: 没有负面语言但明显负面的评论。
  • Toxicity: 不合理表达的负面评论,无论目标是否存在或是否已知。
  • Severe toxicity: 仅包含性内容的评论,只需一个严重毒性元素即可标记为严重毒性。

注释者一致性

  • 初始和讨论后的注释一致性百分比,涵盖身份攻击、侮辱、严重毒性、威胁、毒性和淫秽等标签。

评估结果

  • 使用TurkuNLP/bert-large-finnish-cased-toxicity进行评估的结果,包括精度、召回率和F1分数。

许可信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作