readerbench/ro-offense

Name: readerbench/ro-offense
Creator: readerbench
Published: 2023-08-08 10:48:15
License: 暂无描述

Hugging Face2023-08-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/readerbench/ro-offense

下载链接

链接失效反馈

官方服务：

资源简介：

RO-Offense-Sequences是一个用于罗马尼亚语冒犯性语言检测的新数据集，包含来自罗马尼亚体育新闻网站（gsp.ro）的评论，这些评论经过手动标注，分为不同的冒犯性类别。数据集包含12,445条标注消息，分为训练集和测试集。数据集的创建目的是为了收集罗马尼亚语的辱骂性语言分类数据，标注过程基于Germeval 2019任务的定义。数据集的来源是2011年至2020年间Gazeta Sporturilor（gsp.ro）文章下的评论。注释由母语为罗马尼亚语的人员完成，并进行了个人和敏感信息的移除。数据集的使用可能对社会产生负面影响，因为它包含辱骂性语言。

提供机构：

readerbench

原始信息汇总

数据集概述

名称: RO-Offense-Sequences

语言: 罗马尼亚语

类型: 单语种

任务: 文本分类

标签:

仇恨言论检测
攻击性言论
罗马尼亚语
NLP

数据集大小: 1K<n<10K

许可: Apache-2.0

数据集结构

数据实例

{ id: 5, text:PLACEHOLDER TEXT, label: OTHER }

数据字段

id: 唯一评论ID
text: 完整评论文本
label: 攻击性消息类型（OTHER, PROFANITY, INSULT, ABUSE）

数据分割

训练集: 9953条
测试集: 2492条

数据集创建

来源数据

来源: 体育新闻文章评论
语言生产者: 体育新闻文章读者

标注

标注者: 母语者
标注过程: 根据文本内容判断并标注为OTHER, PROFANITY, INSULT, ABUSE

个人和敏感信息

数据在收集时为公开状态
已执行PII移除

使用数据注意事项

数据包含攻击性语言，可能用于开发和传播针对特定群体的攻击性语言
数据集可能存在偏见和其他已知限制

5,000+

优质数据集

54 个

任务类型

进入经典数据集