cuentalo-hand-labeled-dataset

github2020-12-29 更新2024-05-31 收录

下载链接：

https://github.com/BSCCNS/cuentalo-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在一个CSV文件中，具有多个标签列，用于标记推文内容是否涉及谋杀、强奸、性侵犯、虐待、骚扰、恐惧以及厌恶/悲伤/愤怒等情绪。数据集用于分析和可视化#Cuéntalo运动。

This dataset is contained within a CSV file and features multiple label columns that indicate whether the content of tweets pertains to murder, rape, sexual assault, abuse, harassment, fear, and emotions such as disgust/sadness/anger. The dataset is utilized for the analysis and visualization of the #Cuéntalo movement.

创建时间：

2019-03-06

原始信息汇总

数据集概述

数据集名称

cuentalo-dataset

数据集文件

文件名：cuentalo-hand-labeled-dataset.csv

数据集结构

id: (integer) 推文ID。
WHO: (integer between 1-5) 推文作者的相关性分类。
WHAT-murder: (1 or blank) 如果推文标记为谋杀。
WHAT-rape: (1 or blank) 如果推文标记为强奸。
WHAT-sexual_assault: (1 or blank) 如果推文标记为性侵犯。
WHAT-abuse: (1 or blank) 如果推文标记为虐待。
WHAT-harassment: (1 or blank) 如果推文标记为骚扰。
WHAT-fear: (1 or blank) 如果推文标记为恐惧。
WHAT-disgust/sadness/anger: (1 or blank) 如果推文标记为厌恶/悲伤/愤怒。

WHO 列解释

1: 推文作者讲述自己的事情。
2: 推文作者讲述他人的事情。
3: 推文作者支持该运动。
4: 推文作者讲述与该运动无关的事情。
5: 推文作者反对该运动。

WHAT 列解释

murder: 推文描述谋杀。
rape: 推文描述强奸或企图强奸。
sexual assault: 推文描述性侵犯（不属于强奸类别的情况）。
abuse: 推文描述虐待。
harassment: 推文讨论非身体骚扰情况。
fear: 推文明确描述恐惧。
disgust/sadness/anger: 推文明确描述厌恶/悲伤/愤怒，仅当WHO不是4时。

引用信息

论文: Maria Soledad Bucalo 等人的 "A Constellation of Horrors: Analysis and Visualization of the #Cuéntalo Movement"。
数据集: pareyesv 的 "BSCCNS/cuentalo-dataset"。

搜集汇总

数据集介绍

构建方式

cuentalo-hand-labeled-dataset 数据集通过人工标注的方式构建，主要基于社交媒体平台Twitter上的推文内容。数据集的标注过程涉及对每条推文的详细分类，包括推文作者的身份描述（`WHO`）以及推文内容所涉及的具体事件类型（`WHAT-*`）。标注者根据预定义的分类标准，对推文进行多标签分类，确保每条推文能够准确反映其内容的情感倾向和事件类型。数据集以CSV格式存储，便于后续的分析和处理。

特点

该数据集的特点在于其精细的标注体系，涵盖了推文作者的身份描述（如自我描述、他人描述、支持运动、无关内容、反对运动）以及推文内容所涉及的具体事件类型（如谋杀、强奸、性侵犯、虐待、骚扰、恐惧、厌恶/悲伤/愤怒等）。这种多层次的标注方式使得数据集能够广泛应用于情感分析、社会运动研究以及性别暴力事件的监测与分析。此外，数据集的标注过程严格遵循一致性标准，确保了数据的可靠性和科学性。

使用方法

cuentalo-hand-labeled-dataset 数据集的使用方法较为灵活，用户可以通过加载CSV文件直接访问数据。每条推文的数据包含唯一的推文ID、作者身份描述以及事件类型标签。研究人员可以利用这些数据进行情感分析、社会网络分析或机器学习模型的训练与评估。数据集的使用场景包括但不限于性别暴力事件的监测、社会运动的情感倾向分析以及社交媒体内容的分类研究。使用该数据集时，建议引用相关论文和数据集，以确保研究的透明性和可重复性。

背景与挑战

背景概述

cuentalo-hand-labeled-dataset 数据集由 Maria Soledad Bucalo 等研究人员于2019年创建，旨在支持对#Cuéntalo运动的分析与可视化。该运动通过社交媒体平台揭露和讨论性别暴力问题，数据集的核心研究问题在于如何通过机器学习和社会网络分析技术，识别和分类与性别暴力相关的推文。数据集包含了推文的ID、作者身份（WHO）以及推文内容所涉及的暴力类型（WHAT），如谋杀、强奸、性侵犯等。该数据集为研究性别暴力的社会影响提供了宝贵的数据支持，并在相关领域的研究中发挥了重要作用。

当前挑战

cuentalo-hand-labeled-dataset 数据集在构建和应用过程中面临多重挑战。首先，数据标注的复杂性较高，推文内容涉及多种暴力类型，且部分推文可能同时涉及多个类别，这对标注的一致性和准确性提出了较高要求。其次，推文语言的多样性和非正式性增加了自然语言处理的难度，尤其是在情感分析和暴力类型分类任务中。此外，社交媒体数据的动态性和噪声问题也对数据清洗和预处理提出了挑战。最后，如何在保护用户隐私的前提下有效利用这些数据，也是研究者和开发者需要解决的重要问题。

常用场景

经典使用场景

cuentalo-hand-labeled-dataset数据集主要用于社交媒体文本分析领域，特别是在研究#Cuéntalo运动中用户生成内容的分类与情感分析。该数据集通过对推文的手动标注，提供了关于暴力、性侵、虐待等敏感话题的详细分类信息，为研究人员提供了一个高质量的数据基础，用于训练和验证自然语言处理模型。

实际应用

在实际应用中，cuentalo-hand-labeled-dataset被广泛用于社交媒体监控和公共安全领域。通过分析推文中的敏感内容，相关机构能够及时发现和应对潜在的暴力事件或性侵案件。此外，该数据集还被用于开发自动化工具，帮助识别和过滤社交媒体平台上的有害内容，提升用户体验和平台安全性。

衍生相关工作

基于cuentalo-hand-labeled-dataset，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了多种机器学习模型，用于自动分类和情感分析。此外，该数据集还推动了社交媒体文本可视化的研究，帮助公众更直观地理解#Cuéntalo运动中的情感分布和话题演变。这些工作不仅丰富了相关领域的学术成果，也为实际应用提供了有力支持。

以上内容由遇见数据集搜集并总结生成