TurkuNLP/Suomi24-toxicity-annotated

Name: TurkuNLP/Suomi24-toxicity-annotated
Creator: TurkuNLP
Published: 2023-06-02 13:04:21
License: 暂无描述

Hugging Face2023-06-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TurkuNLP/Suomi24-toxicity-annotated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Suomi-24-toxicity-annotated，包含从Suomi24论坛中采样的评论，这些评论通过毒性分类器的预测进行采样，并特别关注了难以分类的边界案例。每个标签下采样了500条评论。注释过程使用了Perspective的标签，每个评论只标注一个标签，尽管有些评论可能出现在两个标签中。注释过程包括初始注释、讨论和最终注释。数据集中的例子是那些经过一致同意或通过讨论解决的评论。数据集的语言为芬兰语，主要用于文本分类任务，特别是毒性检测。

提供机构：

TurkuNLP

原始信息汇总

数据集概述

数据集名称

Suomi-24-toxicity-annotated

数据集内容

包含从Suomi24采样的评论，使用毒性分类器进行预测。
每个标签采样500条评论，强调边缘案例。
注释过程使用Perspective的标签，与TurkuNLP/wikipedia-toxicity-data-fi相同。
每个评论仅注释一个标签，少数评论出现在两个标签中。

数据集规模

规模类别：1K<n<10K

数据集语言

语言：芬兰语（fi）

数据集任务类别

任务类别：文本分类

数据集标签定义

THREAT: 描述对个人或团体的伤害、暴力意图。
THREATENING: 威胁或鼓励暴力或伤害，包括自伤。
PROFANITY: 亵渎、诅咒或其他淫秽或亵渎语言。
INSULT: 对个人或群体的侮辱、煽动或负面评论。
IDENTITY ATTACK: 针对个人身份的负面或仇恨评论。
TOXICITY: 可能导致人们离开讨论的无礼、不尊重或不合理评论。
SEVERE TOXICITY: 非常仇恨、攻击性、不尊重的评论，或非常可能导致用户放弃分享观点。

注释指南

Obscene: 包括轻微的咒骂、拼写错误、掩码或其他变体，以及不适当主题或上下文中的性暗示词汇。
Threat: 包括自杀或自伤评论、煽动暴力或自伤、假设情况和希望对某人造成伤害。
Insult: 针对群体的侮辱性术语（也包括身份攻击）。
Identity attack: 没有负面语言但明显负面的评论。
Toxicity: 不合理表达的负面评论，无论目标是否存在或是否已知。
Severe toxicity: 仅包含性内容的评论，只需一个严重毒性元素即可标记为严重毒性。

注释者一致性

初始和讨论后的注释一致性百分比，涵盖身份攻击、侮辱、严重毒性、威胁、毒性和淫秽等标签。

评估结果

使用TurkuNLP/bert-large-finnish-cased-toxicity进行评估的结果，包括精度、召回率和F1分数。

许可信息

许可：Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
数据集内容的版权属于原始版权持有者。

5,000+

优质数据集

54 个

任务类型

进入经典数据集