community-datasets/roman_urdu_hate_speech

Name: community-datasets/roman_urdu_hate_speech
Creator: community-datasets
Published: 2024-06-24 06:29:09
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/roman_urdu_hate_speech

下载链接

链接失效反馈

官方服务：

资源简介：

Roman Urdu Hate-Speech and Offensive Language Detection (RUHSOLD)数据集是一个由专家标注的罗马乌尔都语推文数据集，用于检测仇恨言论和冒犯性语言。数据集包含两种分类任务：粗粒度分类和细粒度分类。粗粒度分类将推文标记为‘Abusive/Offensive’或‘Normal’，而细粒度分类则进一步将‘Abusive/Offensive’内容细分为‘Religious Hate’、‘Sexism’和‘Profane/Untargeted’等类别。数据集的目标是帮助研究者在不同难度级别上评估仇恨言论检测方法。数据集包含训练、验证和测试集，采用分层抽样以确保各分割中的标签比例一致。

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集描述

数据集摘要

Roman Urdu Hate-Speech and Offensive Language Detection (RUHSOLD) 数据集是一个罗马乌尔都语的推文数据集，由语言专家进行标注。该数据集包含两个子任务的金标准。第一个子任务基于二元标签，区分仇恨/攻击性内容和正常内容，称为粗粒度分类。第二个子任务在更细粒度级别上定义仇恨/攻击性内容，包含五个标签，称为细粒度分类。创建两个金标准的目的是让研究人员能够在简单（粗粒度）和挑战性（细粒度）场景下评估仇恨言论检测方法。

支持的任务和排行榜

multi-class-classification, text-classification-other-binary classification: 该数据集可用于多类别分类和二元分类，因为它包含粗粒度和细粒度标签。

语言

该数据集的文本是罗马乌尔都语，对应的BCP-47代码是ur。

数据集结构

数据实例

数据集分为两部分：粗粒度示例和细粒度示例。粗粒度示例中的推文标记为攻击性或正常，而细粒度版本中推文包含多个仇恨类别。

粗粒度部分的标签映射：

0: 攻击性/冒犯性
1: 正常

细粒度部分的标签映射：

0: 攻击性/冒犯性
1: 正常
2: 宗教仇恨
3: 性别歧视
4: 亵渎/无目标

数据字段

tweet: 表示推文的字符串，通过从50000条推文中随机抽样选择10000条推文并进行标注。
label: 由三位独立标注者手动标注，标注过程中所有冲突通过三位标注者的多数投票解决。

数据分割

每个部分（粗粒度和细粒度）的数据进一步分为训练集、验证集和测试集。数据按70/20/10的比例分割，并使用基于细粒度标签的分层抽样以保持各分割中的标签比例一致。

最终的分割大小如下：

训练集: 7209
验证集: 2003
测试集: 801

数据集创建

数据集配置

Coarse_Grained
- 特征:
  - tweet: 字符串
  - label: 类别标签，名称:
    - 0: 攻击性/冒犯性
    - 1: 正常
- 分割:
  - 训练集: 7208条数据，725715字节
  - 测试集: 2002条数据，202318字节
  - 验证集: 800条数据，79755字节
- 下载大小: 730720字节
- 数据集大小: 1007788字节
Fine_Grained
- 特征:
  - tweet: 字符串
  - label: 类别标签，名称:
    - 0: 攻击性/冒犯性
    - 1: 正常
    - 2: 宗教仇恨
    - 3: 性别歧视
    - 4: 亵渎/无目标
- 分割:
  - 训练集: 7208条数据，723666字节
  - 测试集: 2002条数据，203590字节
  - 验证集: 7208条数据，723666字节
- 下载大小: 1199660字节
- 数据集大小: 1650922字节

数据文件

Coarse_Grained
- 训练集: Coarse_Grained/train-*
- 测试集: Coarse_Grained/test-*
- 验证集: Coarse_Grained/validation-*
- 默认配置: 是
Fine_Grained
- 训练集: Fine_Grained/train-*
- 测试集: Fine_Grained/test-*
- 验证集: Fine_Grained/validation-*

搜集汇总

背景与挑战

背景概述

Roman Urdu Hate-Speech and Offensive Language Detection (RUHSOLD)数据集是一个用于检测罗马乌尔都语推文中仇恨言论和冒犯性语言的专家标注数据集，包含粗粒度和细粒度分类任务，并提供了训练、验证和测试集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集