readerbench/news-ro-offense
收藏Hugging Face2023-06-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/news-ro-offense
下载链接
链接失效反馈官方服务:
资源简介:
RO-News-Offense数据集是一个用于检测罗马尼亚语中冒犯性信息的新数据集。该数据集包含从罗马尼亚当地新闻网站(stiri de cluj)手动注释的评论,分为五类:非冒犯性、针对性侮辱、种族主义、恐同和性别歧视。数据集共有4052条注释消息。数据集的创建目的是为了收集罗马尼亚语中的辱骂性语言分类数据。数据集的结构包括评论ID、回复评论ID、评论编号、文章ID、评论文本和标签。数据集的语言为罗马尼亚语,且为单语言数据集。数据集的使用可能涉及社会影响,因为它包含辱骂性语言,可能被用来传播针对特定群体的冒犯性语言。
提供机构:
readerbench
原始信息汇总
数据集概述
数据集描述
数据集总结
- 名称: News-RO-Offense
- 语言: 罗马尼亚语
- 目的: 用于检测攻击性消息的罗马尼亚语数据集
- 内容: 包含从罗马尼亚新闻网站手动标注的评论,分为五个类别:非攻击性、针对性侮辱、种族歧视、恐同和性别歧视。总计4052条标注信息。
支持的任务和排行榜
- 任务类别: 文本分类
- 任务ID: 仇恨言论检测
语言
- 语言: 罗马尼亚语
- 多语言性: 单语种
数据集结构
数据实例
-
示例:
{ comment_id: 5, reply_to_comment_id:2, comment_nr: 1, content_id: 23, comment_text:PLACEHOLDER TEXT, LABEL: 3 }
数据字段
comment_id: 唯一评论IDreply_to_comment_id: 回复的评论ID,若为对话树的一部分,否则为空comment_nr: 评论在文章中的当前编号content_id: 文章IDcomment_text: 完整评论文本LABEL: 标签(0=非攻击性, 1=针对性侮辱, 2=种族歧视, 3=恐同, 4=性别歧视)
数据分割
- 分割: 训练集和测试集
数据集创建
数据收集理由
- 目的: 收集数据用于罗马尼亚语的攻击性语言分类
源数据
- 来源: 新闻文章评论
- 数据收集者: 新闻文章读者
标注
- 标注者: 母语为罗马尼亚语的标注者
个人和敏感信息
- 信息处理: 数据在收集时为公开状态,未进行个人识别信息移除
使用数据集的考虑
社会影响
- 影响: 数据集包含攻击性语言,可能被用于开发和传播针对特定群体的攻击性语言
许可证信息
- 许可证: Apache-2.0



