Hate Speech and Offensive Language
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Hate_Speech_and_Offensive_etc
下载链接
链接失效反馈官方服务:
资源简介:
HSOL 是用于仇恨言论检测的数据集。作者从仇恨言论词典开始,其中包含被互联网用户识别为仇恨言论的单词和短语,由 Hatebase.org 编译。他们使用 Twitter API 搜索包含词典中术语的推文,从而产生了来自 33,458 位 Twitter 用户的推文样本。他们为每个用户提取了时间线,产生了一组 8540 万条推文。他们从这个语料库中随机抽取了 25k 条推文样本,其中包含词典中的术语,并由 CrowdFlower (CF) 工作人员手动编码。工人们被要求将每条推文标记为以下三类之一:仇恨言论、冒犯性但非仇恨言论或既非冒犯性又非仇恨言论。
提供机构:
OpenDataLab
创建时间:
2022-08-16



