five

readerbench/news-ro-offense

收藏
Hugging Face2023-06-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/news-ro-offense
下载链接
链接失效反馈
官方服务:
资源简介:
RO-News-Offense数据集是一个用于检测罗马尼亚语中冒犯性信息的新数据集。该数据集包含从罗马尼亚当地新闻网站(stiri de cluj)手动注释的评论,分为五类:非冒犯性、针对性侮辱、种族主义、恐同和性别歧视。数据集共有4052条注释消息。数据集的创建目的是为了收集罗马尼亚语中的辱骂性语言分类数据。数据集的结构包括评论ID、回复评论ID、评论编号、文章ID、评论文本和标签。数据集的语言为罗马尼亚语,且为单语言数据集。数据集的使用可能涉及社会影响,因为它包含辱骂性语言,可能被用来传播针对特定群体的冒犯性语言。
提供机构:
readerbench
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: News-RO-Offense
  • 语言: 罗马尼亚语
  • 目的: 用于检测攻击性消息的罗马尼亚语数据集
  • 内容: 包含从罗马尼亚新闻网站手动标注的评论,分为五个类别:非攻击性、针对性侮辱、种族歧视、恐同和性别歧视。总计4052条标注信息。

支持的任务和排行榜

  • 任务类别: 文本分类
  • 任务ID: 仇恨言论检测

语言

  • 语言: 罗马尼亚语
  • 多语言性: 单语种

数据集结构

数据实例

  • 示例:

    { comment_id: 5, reply_to_comment_id:2, comment_nr: 1, content_id: 23, comment_text:PLACEHOLDER TEXT, LABEL: 3 }

数据字段

  • comment_id: 唯一评论ID
  • reply_to_comment_id: 回复的评论ID,若为对话树的一部分,否则为空
  • comment_nr: 评论在文章中的当前编号
  • content_id: 文章ID
  • comment_text: 完整评论文本
  • LABEL: 标签(0=非攻击性, 1=针对性侮辱, 2=种族歧视, 3=恐同, 4=性别歧视)

数据分割

  • 分割: 训练集和测试集

数据集创建

数据收集理由

  • 目的: 收集数据用于罗马尼亚语的攻击性语言分类

源数据

  • 来源: 新闻文章评论
  • 数据收集者: 新闻文章读者

标注

  • 标注者: 母语为罗马尼亚语的标注者

个人和敏感信息

  • 信息处理: 数据在收集时为公开状态,未进行个人识别信息移除

使用数据集的考虑

社会影响

  • 影响: 数据集包含攻击性语言,可能被用于开发和传播针对特定群体的攻击性语言

许可证信息

  • 许可证: Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作