five

readerbench/ro-offense

收藏
Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/ro-offense
下载链接
链接失效反馈
官方服务:
资源简介:
RO-Offense-Sequences是一个用于罗马尼亚语冒犯性语言检测的新数据集,包含来自罗马尼亚体育新闻网站(gsp.ro)的评论,这些评论经过手动标注,分为不同的冒犯性类别。数据集包含12,445条标注消息,分为训练集和测试集。数据集的创建目的是为了收集罗马尼亚语的辱骂性语言分类数据,标注过程基于Germeval 2019任务的定义。数据集的来源是2011年至2020年间Gazeta Sporturilor(gsp.ro)文章下的评论。注释由母语为罗马尼亚语的人员完成,并进行了个人和敏感信息的移除。数据集的使用可能对社会产生负面影响,因为它包含辱骂性语言。

RO-Offense-Sequences是一个用于罗马尼亚语冒犯性语言检测的新数据集,包含来自罗马尼亚体育新闻网站(gsp.ro)的评论,这些评论经过手动标注,分为不同的冒犯性类别。数据集包含12,445条标注消息,分为训练集和测试集。数据集的创建目的是为了收集罗马尼亚语的辱骂性语言分类数据,标注过程基于Germeval 2019任务的定义。数据集的来源是2011年至2020年间Gazeta Sporturilor(gsp.ro)文章下的评论。注释由母语为罗马尼亚语的人员完成,并进行了个人和敏感信息的移除。数据集的使用可能对社会产生负面影响,因为它包含辱骂性语言。
提供机构:
readerbench
原始信息汇总

数据集概述

名称: RO-Offense-Sequences

语言: 罗马尼亚语

类型: 单语种

任务: 文本分类

标签:

  • 仇恨言论检测
  • 攻击性言论
  • 罗马尼亚语
  • NLP

数据集大小: 1K<n<10K

许可: Apache-2.0

数据集结构

数据实例

{ id: 5, text:PLACEHOLDER TEXT, label: OTHER }

数据字段

  • id: 唯一评论ID
  • text: 完整评论文本
  • label: 攻击性消息类型(OTHER, PROFANITY, INSULT, ABUSE)

数据分割

  • 训练集: 9953条
  • 测试集: 2492条

数据集创建

来源数据

  • 来源: 体育新闻文章评论
  • 语言生产者: 体育新闻文章读者

标注

  • 标注者: 母语者
  • 标注过程: 根据文本内容判断并标注为OTHER, PROFANITY, INSULT, ABUSE

个人和敏感信息

  • 数据在收集时为公开状态
  • 已执行PII移除

使用数据注意事项

  • 数据包含攻击性语言,可能用于开发和传播针对特定群体的攻击性语言
  • 数据集可能存在偏见和其他已知限制
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作