five

FelipeGuerra/Colombian_Spanish_Cyberbullying_Dataset_1

收藏
Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FelipeGuerra/Colombian_Spanish_Cyberbullying_Dataset_1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含3570条推文,每条推文都被手动标记为是否涉及网络欺凌。数据集的一个显著特点是,对于给定的单词,存在一条被标记为网络欺凌的推文和另一条包含相同单词但未被标记为网络欺凌的推文。这是因为相同单词在不同上下文中的使用可能导致不同的分类结果。例如,未涉及网络欺凌的推文可能包含在特定上下文中不构成网络欺凌的粗俗词汇。此外,未涉及网络欺凌的推文还包括来自哥伦比亚地区趋势的推文。数据集的创建基于Cynthia Van Hee等人提出的网络欺凌细粒度分析指南,涵盖了侮辱、威胁、诅咒和诽谤四个类别。推文由与该项目相关的职业治疗师进行标记。

该数据集包含3570条推文,每条推文都被手动标记为是否涉及网络欺凌。数据集的一个显著特点是,对于给定的单词,存在一条被标记为网络欺凌的推文和另一条包含相同单词但未被标记为网络欺凌的推文。这是因为相同单词在不同上下文中的使用可能导致不同的分类结果。例如,未涉及网络欺凌的推文可能包含在特定上下文中不构成网络欺凌的粗俗词汇。此外,未涉及网络欺凌的推文还包括来自哥伦比亚地区趋势的推文。数据集的创建基于Cynthia Van Hee等人提出的网络欺凌细粒度分析指南,涵盖了侮辱、威胁、诅咒和诽谤四个类别。推文由与该项目相关的职业治疗师进行标记。
提供机构:
FelipeGuerra
原始信息汇总

数据集概述

该数据集包含3570条推文,这些推文被手动标记为网络霸凌或非网络霸凌。该数据集的一个显著特点是,对于给定的单词,存在一条标记为网络霸凌的推文包含该单词,同时还有另一条标记为非网络霸凌的推文包含相同的单词。这是因为同一个单词在不同上下文中的使用可能导致推文被分类不同。

例如,非网络霸凌类别的推文主要包含在特定上下文中不对应于网络霸凌的粗俗词汇。例如,“Marica, se me olvidó ver el partido”。此外,非网络霸凌类别中还包括来自哥伦比亚地区趋势的推文。Twitter趋势反映了特定时间和地区最热门的话题和对话,基本上捕捉了人们在那个地理区域在线讨论和分享的内容。

在无法获取包含特定冒犯性词汇或短语的非网络霸凌推文的情况下,使用了基于趋势的推文,例如“ojala te violen”。相反,标记为网络霸凌的推文可能不总是包含被认为是强烈或粗俗的词汇或短语,例如“te voy a buscar”。

网络霸凌推文和非网络霸凌推文的分布相同。用于创建数据集的关键词和短语是根据Cynthia Van Hee、Ben Verhoeven、Els Lefever、Guy De Pauw、Walter Daelemans和Véronique Hoste撰写的文章《细粒度分析网络霸凌的指南》中提供的类别选择的。包括四个类别:侮辱、威胁、诅咒和诽谤。侮辱类别涉及使用旨在口头伤害他人的冒犯性词汇,而威胁旨在伤害受害者的完整性。诅咒包括希望对某人造成伤害或不幸的词汇,而诽谤旨在损害受害者的声誉。这些类别被选择来捕捉网络霸凌可以表现的各种形式。推文由与项目相关的职业治疗师进行标记。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作