christinacdl/hate_speech_dataset_new
收藏Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/christinacdl/hate_speech_dataset_new
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含44,246条文本,其中21,493条为非仇恨文本,22,753条为仇恨文本。数据经过去重处理,并使用sklearn进行分割,分为80%的训练集和20%的临时测试集,测试集进一步分割为50%的测试集和验证集。最终的数据分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集结合了6个公开可用的数据集,包括Ethos、Anatomy of Online Hate、A Benchmark Dataset for Learning to Intervene in Online Hate Speech、Automated Hate Speech Detection and the Problem of Offensive Language、HatEval和Hate Towards the Political Opponent。
该数据集包含44,246条文本,其中21,493条为非仇恨文本,22,753条为仇恨文本。数据经过去重处理,并使用sklearn进行分割,分为80%的训练集和20%的临时测试集,测试集进一步分割为50%的测试集和验证集。最终的数据分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集结合了6个公开可用的数据集,包括Ethos、Anatomy of Online Hate、A Benchmark Dataset for Learning to Intervene in Online Hate Speech、Automated Hate Speech Detection and the Problem of Offensive Language、HatEval和Hate Towards the Political Opponent。
提供机构:
christinacdl
原始信息汇总
数据集概述
基本信息
- 许可: Apache-2.0
- 任务类别: 文本分类
- 语言: 英语
数据集规模
- 总文本数: 44,246
- 非仇恨文本数: 21,493
- 仇恨文本数: 22,753
数据处理
- 去重: 所有重复值已被移除
- 数据分割: 使用sklearn进行分割,80%为训练集,20%为临时测试集(标签分层)。随后,临时测试集进一步分割为50%的测试集和验证集(标签分层)
- 分割比例: 80/10/10
数据集分割详情
- 训练集标签分布:
- 标签0: 17,194
- 标签1: 18,202
- 总计: 35,396
- 验证集标签分布:
- 标签0: 2,150
- 标签1: 2,275
- 总计: 4,425
- 测试集标签分布:
- 标签0: 2,149
- 标签1: 2,276
- 总计: 4,425
数据集来源
- 组合来源: 6个公开数据集
- "Ethos" dataset (Mollas et al., 2022)
- Anatomy of Online Hate: Developing a Taxonomy and Machine Learning Models for Identifying and Classifying Hate in Online News Media (Salminem et al. (2018)
- A Benchmark Dataset for Learning to Intervene in Online Hate Speech (Qian et al., 2019)
- Automated Hate Speech Detection and the Problem of Offensive Language (Davidson, et al., 2017)
- HatEval (Basile et al, 2019), SemEval-2019 Task 5
- "Hate Towards the Political Opponent"(Grimminger et al., 2021)



