WhatsApp Dataset

github2023-03-02 更新2024-05-31 收录

下载链接：

https://github.com/dhfbk/WhatsApp-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们开发了这个WhatsApp数据集，旨在研究意大利12-13岁学生在CREEP EIT项目背景下网络欺凌的情况。该数据集包含14,600个令牌，分为10个聊天记录，所有聊天记录均由两位标注者使用CAT网络工具按照相同指南进行标注。我们的指南是基于Ghent大学语言和翻译技术团队为英语开发的“网络欺凌细粒度分析指南”的意大利语改编版，并新增了“身体羞辱”这一侮辱类型，以及将“鼓励骚扰者”修改为“鼓励骚扰”。

We have developed this WhatsApp dataset with the aim of investigating the phenomenon of cyberbullying among 12-13-year-old students in Italy within the context of the CREEP EIT project. The dataset comprises 14,600 tokens, organized into 10 chat logs, all of which have been annotated by two annotators using the CAT web tool, following the same guidelines. Our guidelines are an Italian adaptation of the 'Fine-Grained Analysis Guidelines for Cyberbullying' developed by the Language and Translation Technology team at Ghent University for English, with the addition of a new category of insult, 'body shaming,' and the modification of 'encouraging the harasser' to 'encouraging harassment.'

创建时间：

2018-09-03

原始信息汇总

WhatsApp数据集概述

数据集目的

本数据集旨在研究意大利12-13岁学生中的网络欺凌现象，作为CREEP EIT项目的一部分。

数据集内容

文本量：包含14,600个标记。
聊天记录：分为10个聊天记录。
注释方式：所有聊天记录均由两位注释者使用CAT网络工具进行注释，遵循相同的指导原则。

注释指南

指南来源：基于Ghent大学语言与翻译技术团队为英语开发的“细粒度网络欺凌分析指南”的意大利语改编版。
新增内容：
- 增加了一种新的侮辱类型“身体羞辱”，针对基于身体形状、大小或外观的批评表达。
- 将原有的“鼓励骚扰者”类型修改为“鼓励骚扰”，以包含欺凌者及其助手之间的所有煽动行为。

引用信息

作者：Rachele Sprugnoli, Stefano Menini, Sara Tonelli, Filippo Oncini, Enrico Maria Piras。
出版年份：2018年。
出版物：第二届在线滥用语言研讨会(ALW2)论文集。
论文链接：Creating a WhatsApp Dataset to Study Pre-teen Cyberbullying。

搜集汇总

数据集介绍

构建方式

该数据集旨在研究意大利12至13岁学生中的网络欺凌现象，作为CREEP EIT项目的一部分。数据集包含10个WhatsApp聊天记录，共计14,600个词汇单元。所有聊天记录均通过CAT网络注释工具由两名注释员进行标注，遵循统一的标注指南。该指南基于根特大学语言与翻译技术团队开发的“网络欺凌细粒度分析指南”，并针对意大利语进行了适应性调整，新增了“身体羞辱”类别，以涵盖基于体型、尺寸或外貌的批评性表达，同时将“鼓励欺凌者”类别调整为“鼓励欺凌行为”，以更全面地反映欺凌者及其助手之间的煽动行为。

使用方法

该数据集适用于网络欺凌行为的研究，特别是在青少年群体中的应用。研究者可以通过分析聊天记录中的标注信息，深入探讨网络欺凌的语言特征、行为模式及其对青少年的影响。数据集的使用方法包括但不限于文本分析、情感分析、以及网络欺凌检测模型的训练与评估。通过结合机器学习算法，研究者可以进一步挖掘数据中的潜在模式，为预防和干预网络欺凌提供科学依据。

背景与挑战

背景概述

WhatsApp数据集由意大利研究人员Rachele Sprugnoli等人于2018年创建，旨在研究12至13岁意大利学生中的网络欺凌现象。该数据集是CREEP EIT项目的一部分，包含10个聊天记录，共计14,600个词汇单元。所有聊天内容均通过CAT网络工具进行标注，标注指南基于根特大学语言与翻译技术团队开发的网络欺凌细粒度分析指南，并针对意大利语进行了适应性调整。该数据集为研究网络欺凌行为提供了宝贵的资源，尤其在青少年群体中的语言使用和行为模式分析方面具有重要价值。

当前挑战

WhatsApp数据集的研究面临多重挑战。首先，网络欺凌行为的定义和分类具有高度主观性，尤其是在跨文化背景下，如何准确识别和标注相关语言表达成为一大难题。其次，数据集的构建过程中，研究人员需要处理大量非结构化文本数据，并确保标注的一致性和准确性。此外，由于涉及未成年人隐私，数据采集和使用的伦理问题也需谨慎处理。最后，如何将研究成果应用于实际干预措施，以有效减少网络欺凌行为，是未来研究的重要方向。

常用场景

经典使用场景

WhatsApp数据集主要用于研究12至13岁意大利学生在网络环境中的网络欺凌行为。通过分析10个聊天记录中的14,600个标记，研究者能够深入探讨青少年在网络交流中的语言使用模式及其潜在的欺凌行为。

解决学术问题

该数据集解决了网络欺凌行为在青少年中的识别和分类问题，特别是在意大利语境下的特定表现形式。通过引入新的侮辱类型如“身体羞耻”和调整原有分类如“鼓励骚扰”，数据集为研究者提供了更细致的分析工具，有助于理解网络欺凌的复杂性和多样性。

实际应用

在实际应用中，WhatsApp数据集被用于开发更有效的网络欺凌检测算法和教育干预策略。这些应用不仅帮助学校和家长更好地监控和指导青少年的网络行为，也为政策制定者提供了数据支持，以制定更有效的反欺凌政策。

数据集最近研究