readerbench/news-ro-offense

Name: readerbench/news-ro-offense
Creator: readerbench
Published: 2023-06-13 20:03:39
License: 暂无描述

Hugging Face2023-06-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/readerbench/news-ro-offense

下载链接

链接失效反馈

官方服务：

资源简介：

RO-News-Offense数据集是一个用于检测罗马尼亚语中冒犯性信息的新数据集。该数据集包含从罗马尼亚当地新闻网站（stiri de cluj）手动注释的评论，分为五类：非冒犯性、针对性侮辱、种族主义、恐同和性别歧视。数据集共有4052条注释消息。数据集的创建目的是为了收集罗马尼亚语中的辱骂性语言分类数据。数据集的结构包括评论ID、回复评论ID、评论编号、文章ID、评论文本和标签。数据集的语言为罗马尼亚语，且为单语言数据集。数据集的使用可能涉及社会影响，因为它包含辱骂性语言，可能被用来传播针对特定群体的冒犯性语言。

提供机构：

readerbench

原始信息汇总

数据集概述

数据集描述

数据集总结

名称: News-RO-Offense
语言: 罗马尼亚语
目的: 用于检测攻击性消息的罗马尼亚语数据集
内容: 包含从罗马尼亚新闻网站手动标注的评论，分为五个类别：非攻击性、针对性侮辱、种族歧视、恐同和性别歧视。总计4052条标注信息。

支持的任务和排行榜

任务类别: 文本分类
任务ID: 仇恨言论检测

语言

语言: 罗马尼亚语
多语言性: 单语种

数据集结构

数据实例

示例:

{ comment_id: 5, reply_to_comment_id:2, comment_nr: 1, content_id: 23, comment_text:PLACEHOLDER TEXT, LABEL: 3 }

数据字段

comment_id: 唯一评论ID
reply_to_comment_id: 回复的评论ID，若为对话树的一部分，否则为空
comment_nr: 评论在文章中的当前编号
content_id: 文章ID
comment_text: 完整评论文本
LABEL: 标签（0=非攻击性, 1=针对性侮辱, 2=种族歧视, 3=恐同, 4=性别歧视）

数据分割

分割: 训练集和测试集

数据集创建

数据收集理由

目的: 收集数据用于罗马尼亚语的攻击性语言分类

源数据

来源: 新闻文章评论
数据收集者: 新闻文章读者

标注

标注者: 母语为罗马尼亚语的标注者

个人和敏感信息

信息处理: 数据在收集时为公开状态，未进行个人识别信息移除

使用数据集的考虑

社会影响

影响: 数据集包含攻击性语言，可能被用于开发和传播针对特定群体的攻击性语言

许可证信息

许可证: Apache-2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集