FelipeGuerra/Colombian_Spanish_Cyberbullying_Dataset_2
收藏Hugging Face2023-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FelipeGuerra/Colombian_Spanish_Cyberbullying_Dataset_2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2566条推文,这些推文在涉及网络欺凌和非网络欺凌之间保持平衡分布。每条推文都根据特定关键词或短语进行标注,确保每个关键词或短语都有一条被标记为网络欺凌的推文。非网络欺凌类别的推文主要不包含淫秽词汇,并且来自哥伦比亚用户参与的广泛讨论,反映了多样的话题和对话。数据集的创建基于Cynthia Van Hee等人撰写的《网络欺凌细粒度分析指南》中的分类,包括侮辱、威胁、诅咒和诽谤四个类别。推文由与项目相关的职业治疗师进行标注。
该数据集包含2566条推文,这些推文在涉及网络欺凌和非网络欺凌之间保持平衡分布。每条推文都根据特定关键词或短语进行标注,确保每个关键词或短语都有一条被标记为网络欺凌的推文。非网络欺凌类别的推文主要不包含淫秽词汇,并且来自哥伦比亚用户参与的广泛讨论,反映了多样的话题和对话。数据集的创建基于Cynthia Van Hee等人撰写的《网络欺凌细粒度分析指南》中的分类,包括侮辱、威胁、诅咒和诽谤四个类别。推文由与项目相关的职业治疗师进行标注。
提供机构:
FelipeGuerra
原始信息汇总
数据集概述
该数据集包含2566条推文,保持了网络霸凌和非网络霸凌之间的平衡分布。对于每个关键词或短语,都有一个标注为网络霸凌的推文包含该词或短语。
非网络霸凌类别主要包含不包含淫秽词汇的推文,这些推文来源于涉及哥伦比亚用户的流行和多样化的讨论,反映了广泛的主题和对话。
网络霸凌推文和非网络霸凌推文的分布相同。数据集中的关键词和短语是根据Cynthia Van Hee、Ben Verhoeven、Els Lefever、Guy De Pauw、Walter Daelemans和Véronique Hoste撰写的文章《细粒度分析网络霸凌的指南》中提供的类别选择的。包括四个类别:侮辱、威胁、诅咒和诽谤。侮辱类别涉及使用旨在口头伤害他人的 offensive words,威胁旨在伤害受害者的完整性。诅咒包括希望对某人造成伤害或不幸的词汇,而诽谤旨在损害受害者的声誉。这些类别被选择来捕捉网络霸凌可以表现的各种形式。推文由与项目相关的职业治疗师进行标注。



