five

christinacdl/hate_speech_dataset_new

收藏
Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/christinacdl/hate_speech_dataset_new
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含44,246条文本,其中21,493条为非仇恨文本,22,753条为仇恨文本。数据经过去重处理,并使用sklearn进行分割,分为80%的训练集和20%的临时测试集,测试集进一步分割为50%的测试集和验证集。最终的数据分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集结合了6个公开可用的数据集,包括Ethos、Anatomy of Online Hate、A Benchmark Dataset for Learning to Intervene in Online Hate Speech、Automated Hate Speech Detection and the Problem of Offensive Language、HatEval和Hate Towards the Political Opponent。

该数据集包含44,246条文本,其中21,493条为非仇恨文本,22,753条为仇恨文本。数据经过去重处理,并使用sklearn进行分割,分为80%的训练集和20%的临时测试集,测试集进一步分割为50%的测试集和验证集。最终的数据分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集结合了6个公开可用的数据集,包括Ethos、Anatomy of Online Hate、A Benchmark Dataset for Learning to Intervene in Online Hate Speech、Automated Hate Speech Detection and the Problem of Offensive Language、HatEval和Hate Towards the Political Opponent。
提供机构:
christinacdl
原始信息汇总

数据集概述

基本信息

  • 许可: Apache-2.0
  • 任务类别: 文本分类
  • 语言: 英语

数据集规模

  • 总文本数: 44,246
  • 非仇恨文本数: 21,493
  • 仇恨文本数: 22,753

数据处理

  • 去重: 所有重复值已被移除
  • 数据分割: 使用sklearn进行分割,80%为训练集,20%为临时测试集(标签分层)。随后,临时测试集进一步分割为50%的测试集和验证集(标签分层)
  • 分割比例: 80/10/10

数据集分割详情

  • 训练集标签分布:
    • 标签0: 17,194
    • 标签1: 18,202
    • 总计: 35,396
  • 验证集标签分布:
    • 标签0: 2,150
    • 标签1: 2,275
    • 总计: 4,425
  • 测试集标签分布:
    • 标签0: 2,149
    • 标签1: 2,276
    • 总计: 4,425

数据集来源

  • 组合来源: 6个公开数据集
    1. "Ethos" dataset (Mollas et al., 2022)
    2. Anatomy of Online Hate: Developing a Taxonomy and Machine Learning Models for Identifying and Classifying Hate in Online News Media (Salminem et al. (2018)
    3. A Benchmark Dataset for Learning to Intervene in Online Hate Speech (Qian et al., 2019)
    4. Automated Hate Speech Detection and the Problem of Offensive Language (Davidson, et al., 2017)
    5. HatEval (Basile et al, 2019), SemEval-2019 Task 5
    6. "Hate Towards the Political Opponent"(Grimminger et al., 2021)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作