christinacdl/hate_speech_dataset_new

Name: christinacdl/hate_speech_dataset_new
Creator: christinacdl
Published: 2024-03-12 16:21:13
License: 暂无描述

Hugging Face2024-03-12 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/christinacdl/hate_speech_dataset_new

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含44,246条文本，其中21,493条为非仇恨文本，22,753条为仇恨文本。数据经过去重处理，并使用sklearn进行分割，分为80%的训练集和20%的临时测试集，测试集进一步分割为50%的测试集和验证集。最终的数据分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集结合了6个公开可用的数据集，包括Ethos、Anatomy of Online Hate、A Benchmark Dataset for Learning to Intervene in Online Hate Speech、Automated Hate Speech Detection and the Problem of Offensive Language、HatEval和Hate Towards the Political Opponent。

提供机构：

christinacdl

原始信息汇总

数据集概述

基本信息

许可: Apache-2.0
任务类别: 文本分类
语言: 英语

数据集规模

总文本数: 44,246
非仇恨文本数: 21,493
仇恨文本数: 22,753

数据处理

去重: 所有重复值已被移除
数据分割: 使用sklearn进行分割，80%为训练集，20%为临时测试集（标签分层）。随后，临时测试集进一步分割为50%的测试集和验证集（标签分层）
分割比例: 80/10/10

数据集分割详情

训练集标签分布:
- 标签0: 17,194
- 标签1: 18,202
- 总计: 35,396
验证集标签分布:
- 标签0: 2,150
- 标签1: 2,275
- 总计: 4,425
测试集标签分布:
- 标签0: 2,149
- 标签1: 2,276
- 总计: 4,425

数据集来源

组合来源: 6个公开数据集
1. "Ethos" dataset (Mollas et al., 2022)
2. Anatomy of Online Hate: Developing a Taxonomy and Machine Learning Models for Identifying and Classifying Hate in Online News Media (Salminem et al. (2018)
3. A Benchmark Dataset for Learning to Intervene in Online Hate Speech (Qian et al., 2019)
4. Automated Hate Speech Detection and the Problem of Offensive Language (Davidson, et al., 2017)
5. HatEval (Basile et al, 2019), SemEval-2019 Task 5
6. "Hate Towards the Political Opponent"(Grimminger et al., 2021)

5,000+

优质数据集

54 个

任务类型

进入经典数据集