five

mapsoriano/2016_2022_hate_speech_filipino

收藏
Hugging Face2024-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mapsoriano/2016_2022_hate_speech_filipino
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含27,383条推文,标记为仇恨言论(1)或非仇恨言论(0),并按照80-10-10的比例分为训练集、验证集和测试集。数据集结合了[hate_speech_filipino]和2022年菲律宾总统选举相关推文的新数据集。数据集中仇恨和非仇恨推文的数量几乎平衡。数据集主要由菲律宾语文本组成,辅以一些在2016和2022年菲律宾国家/总统选举期间常用的英语单词。
提供机构:
mapsoriano
原始信息汇总

2016 和 2022 年菲律宾仇恨言论数据集

数据集描述

数据集概述

包含总共 27,383 条推文,标记为仇恨言论(1)或非仇恨言论(0)。数据集按 80-10-10 的比例分为训练集、验证集和测试集,其中训练集包含 21,773 条推文,验证集包含 2,800 条推文,测试集包含 2,810 条推文。该数据集是通过合并 hate_speech_filipino 和 2022 年菲律宾总统选举相关的新爬取的仇恨言论推文数据集创建的。

数据集中的仇恨和非仇恨推文数量几乎平衡:

训练数据集: 仇恨(1):10,994 非仇恨(0):10,779

验证数据集: 仇恨(1):1,415 非仇恨(0):1,385

测试数据集: 仇恨(1):1,398 非仇恨(0):1,412

支持的任务和排行榜

[更多信息需要]

语言

该数据集主要包含菲律宾语文本,辅以一些在菲律宾语中常用的英语单词,特别是在 2016 年和 2022 年菲律宾国家/总统选举期间。

数据集结构

数据实例

非仇恨言论样本数据:

{ "text": "Yes to BBM at SARA para sa ikakaunlad ng pilipinas", "label": 0 }

仇恨言论样本数据:

{ "text": "Kapal ng mukha moIkaw magwithdraw!!!!![USERNAME]Hindi pelikula ang magsilbi sa bayan!!! Tama na pagbabasa ng script!!! Kakampink stfu Isko kupal", "label": 1 }

数据字段

[更多信息需要]

数据分割

该数据集按 80% 训练集、10% 验证集、10% 测试集进行分割。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含27,383条2016年和2022年菲律宾总统选举相关的推文,用于仇恨言论检测任务,每条推文被标记为仇恨言论(1)或非仇恨言论(0)。数据以80-10-10的比例分为训练集、验证集和测试集,仇恨与非仇恨推文数量基本平衡,支持文本分类模型训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作