valurank/hate-multi
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/valurank/hate-multi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一组被标记为仇恨言论(类别1)或非仇恨言论(类别0)的文本。
提供机构:
valurank
原始信息汇总
数据集概述
数据集基本信息
- 名称: hate-multi
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 衍生自多个数据集
- 任务类别: 文本分类
数据集描述
数据集总结
- 内容: 包含被标记为仇恨言论(类别1)或非仇恨言论(类别0)的文本集合。
数据集创建
源数据
- 数据集1: hate_speech18 - 过滤掉标记为idk/skip, relation的例子。
- 数据集2: hate_speech_offensive - 文本清理包括小写化、移除提及和URL。丢弃标记为offensive language的实例。
- 数据集3: ucberkeley-dlab/measuring-hate-speech - 文本清理包括小写化、移除提及和URL。丢弃标记为hatespeech == 1的实例。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



