mapsoriano/2016_2022_hate_speech_filipino
收藏Hugging Face2024-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mapsoriano/2016_2022_hate_speech_filipino
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含27,383条推文,标记为仇恨言论(1)或非仇恨言论(0),并按照80-10-10的比例分为训练集、验证集和测试集。数据集结合了[hate_speech_filipino]和2022年菲律宾总统选举相关推文的新数据集。数据集中仇恨和非仇恨推文的数量几乎平衡。数据集主要由菲律宾语文本组成,辅以一些在2016和2022年菲律宾国家/总统选举期间常用的英语单词。
提供机构:
mapsoriano
原始信息汇总
2016 和 2022 年菲律宾仇恨言论数据集
数据集描述
数据集概述
包含总共 27,383 条推文,标记为仇恨言论(1)或非仇恨言论(0)。数据集按 80-10-10 的比例分为训练集、验证集和测试集,其中训练集包含 21,773 条推文,验证集包含 2,800 条推文,测试集包含 2,810 条推文。该数据集是通过合并 hate_speech_filipino 和 2022 年菲律宾总统选举相关的新爬取的仇恨言论推文数据集创建的。
数据集中的仇恨和非仇恨推文数量几乎平衡:
训练数据集: 仇恨(1):10,994 非仇恨(0):10,779
验证数据集: 仇恨(1):1,415 非仇恨(0):1,385
测试数据集: 仇恨(1):1,398 非仇恨(0):1,412
支持的任务和排行榜
[更多信息需要]
语言
该数据集主要包含菲律宾语文本,辅以一些在菲律宾语中常用的英语单词,特别是在 2016 年和 2022 年菲律宾国家/总统选举期间。
数据集结构
数据实例
非仇恨言论样本数据:
{ "text": "Yes to BBM at SARA para sa ikakaunlad ng pilipinas", "label": 0 }
仇恨言论样本数据:
{ "text": "Kapal ng mukha moIkaw magwithdraw!!!!![USERNAME]Hindi pelikula ang magsilbi sa bayan!!! Tama na pagbabasa ng script!!! Kakampink stfu Isko kupal", "label": 1 }
数据字段
[更多信息需要]
数据分割
该数据集按 80% 训练集、10% 验证集、10% 测试集进行分割。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含27,383条2016年和2022年菲律宾总统选举相关的推文,用于仇恨言论检测任务,每条推文被标记为仇恨言论(1)或非仇恨言论(0)。数据以80-10-10的比例分为训练集、验证集和测试集,仇恨与非仇恨推文数量基本平衡,支持文本分类模型训练和评估。
以上内容由遇见数据集搜集并总结生成



