readerbench/ro-offense
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/ro-offense
下载链接
链接失效反馈官方服务:
资源简介:
RO-Offense-Sequences是一个用于罗马尼亚语冒犯性语言检测的新数据集,包含来自罗马尼亚体育新闻网站(gsp.ro)的评论,这些评论经过手动标注,分为不同的冒犯性类别。数据集包含12,445条标注消息,分为训练集和测试集。数据集的创建目的是为了收集罗马尼亚语的辱骂性语言分类数据,标注过程基于Germeval 2019任务的定义。数据集的来源是2011年至2020年间Gazeta Sporturilor(gsp.ro)文章下的评论。注释由母语为罗马尼亚语的人员完成,并进行了个人和敏感信息的移除。数据集的使用可能对社会产生负面影响,因为它包含辱骂性语言。
RO-Offense-Sequences是一个用于罗马尼亚语冒犯性语言检测的新数据集,包含来自罗马尼亚体育新闻网站(gsp.ro)的评论,这些评论经过手动标注,分为不同的冒犯性类别。数据集包含12,445条标注消息,分为训练集和测试集。数据集的创建目的是为了收集罗马尼亚语的辱骂性语言分类数据,标注过程基于Germeval 2019任务的定义。数据集的来源是2011年至2020年间Gazeta Sporturilor(gsp.ro)文章下的评论。注释由母语为罗马尼亚语的人员完成,并进行了个人和敏感信息的移除。数据集的使用可能对社会产生负面影响,因为它包含辱骂性语言。
提供机构:
readerbench
原始信息汇总
数据集概述
名称: RO-Offense-Sequences
语言: 罗马尼亚语
类型: 单语种
任务: 文本分类
标签:
- 仇恨言论检测
- 攻击性言论
- 罗马尼亚语
- NLP
数据集大小: 1K<n<10K
许可: Apache-2.0
数据集结构
数据实例
{ id: 5, text:PLACEHOLDER TEXT, label: OTHER }
数据字段
id: 唯一评论IDtext: 完整评论文本label: 攻击性消息类型(OTHER, PROFANITY, INSULT, ABUSE)
数据分割
- 训练集: 9953条
- 测试集: 2492条
数据集创建
来源数据
- 来源: 体育新闻文章评论
- 语言生产者: 体育新闻文章读者
标注
- 标注者: 母语者
- 标注过程: 根据文本内容判断并标注为OTHER, PROFANITY, INSULT, ABUSE
个人和敏感信息
- 数据在收集时为公开状态
- 已执行PII移除
使用数据注意事项
- 数据包含攻击性语言,可能用于开发和传播针对特定群体的攻击性语言
- 数据集可能存在偏见和其他已知限制



