TurkuNLP/Suomi24-toxicity-annotated
收藏Hugging Face2023-06-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TurkuNLP/Suomi24-toxicity-annotated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Suomi-24-toxicity-annotated,包含从Suomi24论坛中采样的评论,这些评论通过毒性分类器的预测进行采样,并特别关注了难以分类的边界案例。每个标签下采样了500条评论。注释过程使用了Perspective的标签,每个评论只标注一个标签,尽管有些评论可能出现在两个标签中。注释过程包括初始注释、讨论和最终注释。数据集中的例子是那些经过一致同意或通过讨论解决的评论。数据集的语言为芬兰语,主要用于文本分类任务,特别是毒性检测。
该数据集名为Suomi-24-toxicity-annotated,包含从Suomi24论坛中采样的评论,这些评论通过毒性分类器的预测进行采样,并特别关注了难以分类的边界案例。每个标签下采样了500条评论。注释过程使用了Perspective的标签,每个评论只标注一个标签,尽管有些评论可能出现在两个标签中。注释过程包括初始注释、讨论和最终注释。数据集中的例子是那些经过一致同意或通过讨论解决的评论。数据集的语言为芬兰语,主要用于文本分类任务,特别是毒性检测。
提供机构:
TurkuNLP
原始信息汇总
数据集概述
数据集名称
- Suomi-24-toxicity-annotated
数据集内容
- 包含从Suomi24采样的评论,使用毒性分类器进行预测。
- 每个标签采样500条评论,强调边缘案例。
- 注释过程使用Perspective的标签,与
TurkuNLP/wikipedia-toxicity-data-fi相同。 - 每个评论仅注释一个标签,少数评论出现在两个标签中。
数据集规模
- 规模类别:1K<n<10K
数据集语言
- 语言:芬兰语(fi)
数据集任务类别
- 任务类别:文本分类
数据集标签定义
- THREAT: 描述对个人或团体的伤害、暴力意图。
- THREATENING: 威胁或鼓励暴力或伤害,包括自伤。
- PROFANITY: 亵渎、诅咒或其他淫秽或亵渎语言。
- INSULT: 对个人或群体的侮辱、煽动或负面评论。
- IDENTITY ATTACK: 针对个人身份的负面或仇恨评论。
- TOXICITY: 可能导致人们离开讨论的无礼、不尊重或不合理评论。
- SEVERE TOXICITY: 非常仇恨、攻击性、不尊重的评论,或非常可能导致用户放弃分享观点。
注释指南
- Obscene: 包括轻微的咒骂、拼写错误、掩码或其他变体,以及不适当主题或上下文中的性暗示词汇。
- Threat: 包括自杀或自伤评论、煽动暴力或自伤、假设情况和希望对某人造成伤害。
- Insult: 针对群体的侮辱性术语(也包括身份攻击)。
- Identity attack: 没有负面语言但明显负面的评论。
- Toxicity: 不合理表达的负面评论,无论目标是否存在或是否已知。
- Severe toxicity: 仅包含性内容的评论,只需一个严重毒性元素即可标记为严重毒性。
注释者一致性
- 初始和讨论后的注释一致性百分比,涵盖身份攻击、侮辱、严重毒性、威胁、毒性和淫秽等标签。
评估结果
- 使用
TurkuNLP/bert-large-finnish-cased-toxicity进行评估的结果,包括精度、召回率和F1分数。
许可信息
- 许可:Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
- 数据集内容的版权属于原始版权持有者。



