five

midas/metooma|社交媒体分析数据集|性别研究数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
社交媒体分析
性别研究
下载链接:
https://hf-mirror.com/datasets/midas/metooma
下载链接
链接失效反馈
资源简介:
MeTooMA数据集包含与#MeToo运动相关的推文,这些推文被标记为不同的类别。该数据集包括比以往任何关于性侵犯披露的社交媒体帖子数据集更多的数据点和标签。由于Twitter的开发政策,作者仅提供推文ID和相应的标签,其他数据可以通过Twitter API获取。数据由专家标记,大多数标签被用于决定最终标签。该数据集适用于多标签和多类分类任务,主要使用英语。数据集的结构为CSV格式,包含推文ID和相应的标签,分为训练集和测试集。
提供机构:
midas
原始信息汇总

#MeTooMA 数据集概述

数据集描述

数据集摘要

  • 数据集包含与#MeToo 运动相关的推文,分为不同类别。
  • 该数据集包含的数据点和标签比以往任何关于性侵犯披露的社交媒体数据集都要多。
  • 由于 Twitter 的开发政策,作者仅提供推文 ID 和相应的标签,其他数据可通过 Twitter API 获取。
  • 数据由专家标记,多数决定最终标签。
  • 每条推文提供以下标签:
    • 相关性
    • 定向仇恨
    • 普遍仇恨
    • 讽刺
    • 指控
    • 正当化
    • 反驳
    • 支持
    • 反对
  • 所有推文的语言为英语。
  • 时间范围:2018年10月至2018年12月。
  • 建议的使用案例:
    • 评估语言行为(如仇恨言论和讽刺)在公共性侵犯披露中的使用。
    • 提取性别角色在性侵犯披露中的可操作见解和虚拟动态。
    • 识别在社会运动事件中公众平台上影响力人物的描绘方式。
    • 基于#MeToo 运动中用户社交节点的图模拟进行极化分析。

支持的任务和排行榜

多标签和多类别分类。

语言

英语。

数据集结构

  • 数据集以 CSV 格式结构化,包含推文 ID 和相应的标签。
  • 训练集和测试集分别存储在各自的文件中。

数据实例

推文 ID 和相应的标签。

数据字段

  • TweetId: 字符串类型。
  • Text_Only_Informative: 类别标签,包括“文本非信息性”和“文本信息性”。
  • Image_Only_Informative: 类别标签,包括“图像非信息性”和“图像信息性”。
  • Directed_Hate: 类别标签,包括“定向仇恨缺席”和“定向仇恨存在”。
  • Generalized_Hate: 类别标签,包括“普遍仇恨缺席”和“普遍仇恨存在”。
  • Sarcasm: 类别标签,包括“讽刺缺席”和“讽刺存在”。
  • Allegation: 类别标签,包括“指控缺席”和“指控存在”。
  • Justification: 类别标签,包括“正当化缺席”和“正当化存在”。
  • Refutation: 类别标签,包括“反驳缺席”和“反驳存在”。
  • Support: 类别标签,包括“支持缺席”和“支持存在”。
  • Oppose: 类别标签,包括“反对缺席”和“反对存在”。

数据分割

  • 训练集:7978 条数据,821738 字节。
  • 测试集:1995 条数据,205489 字节。

数据集创建

策划理由

  • Twitter 是#MeToo 运动期间性侵犯事件公共披露的主要来源。
  • 人们表达了之前在社交媒体上缺失的意见。
  • 这为研究社交媒体用户在非正式环境中的语言行为提供了机会。
  • 作者期望该数据集对计算语言学家和社会语言学家都有很大兴趣和用途。

源数据

  • 所有数据点来自 Twitter 社交媒体平台。

注释

注释过程

  • 由于数据的高度敏感性,作者选择不使用众包进行标记。
  • 注释者是具有高级临床心理学和性别研究学位的领域专家。
  • 他们被提供了一个包含每个任务及其定义、标签和示例的指南文档。
  • 注释过程不是互斥的,即一个标签的存在并不意味着另一个标签的缺失。

注释者

  • 注释者是具有临床心理学和性别研究学位的领域专家。

个人和敏感信息

  • 考虑到 Twitter 的数据分发政策,仅共享推文 ID 和适用的标签供公众使用。
  • 强烈建议仅将此数据集用于科学目的。

使用数据的注意事项

数据集的社会影响

  • 作者不打算对#MeToo 运动在 Twitter 上的影响进行人口统计分析。
  • 该数据集的发现不应直接用于任何直接的社会干预,而应辅助现有的社会干预工具和疗法。

偏见的讨论

  • #MeToo 运动作为推动社会政策变革的催化剂,旨在造福受性侵犯影响的社区成员。
  • 任何基于此数据集的工作都应旨在减少对少数群体的偏见。

其他已知限制

  • 考虑到隐私问题,社交媒体从业者应避免对性侵犯受害者进行自动干预。
  • 关注的社会媒体用户可能会撤回其社交信息,如果他们发现其信息被用于计算目的。

附加信息

数据集策展人

  • 如果您在产品或应用程序中使用该语料库,请适当致谢作者和 Multimodal Digital Media Analysis Lab - Indraprastha Institute of Information Technology, New Delhi。
  • 如果您对语料库有任何反馈或合作意向,请随时与我们联系。

许可信息

[更多信息待补充]

引用信息

如果您使用该数据集,请引用以下出版物:https://ojs.aaai.org/index.php/ICWSM/article/view/7292

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建以Twitter平台上的#MeToo运动推文为对象,采用专家标注的方式进行。首先,通过关键词搜索和API调用收集相关推文,然后经过去重和筛选,确保数据的质量和相关性。专家们在详细的标注指南指导下,对推文进行多标签标注,涵盖了从立场、仇恨言论到讽刺等不同维度,以捕获推文中的复杂语言行为。
特点
数据集的特点在于其丰富性和细粒度的标注。它包含了9,973条与#MeToo运动相关的推文,每条推文都被标注了多个维度,如相关性、立场、仇恨言论、讽刺以及对话行为。数据集的标注由领域专家完成,确保了高质量和高度的一致性(0.79至0.93的k-alpha一致性)。此外,数据集的构建严格遵守了Twitter的数据使用政策,仅提供推文ID和标签,保证了用户的隐私。
使用方法
使用该数据集时,用户需要通过Twitter API获取推文的具体内容。数据集提供了训练集和测试集,适用于多标签和多类别分类任务。用户可以借助该数据集来评估在公共性侵犯揭露背景下语言行为的使用情况,分析性别角色在性侵犯揭露中的虚拟动态,以及在社会运动中公众人物的影响力展现等。在使用数据集时,应注意其社会影响,避免对特定个人或群体产生偏见或伤害。
背景与挑战
背景概述
‘#MeTooMA dataset’是一个关于#MeToo运动推文的注释数据集,由印度新德里Indraprastha信息科技学院的Midas数字媒体分析实验室创建于2020年。该数据集由专家生成,包含9973条与MeToo运动相关的推文,标注了五个不同的语言特征:相关性、立场、仇恨言论、讽刺和对话行为。数据集涵盖了2018年10月至12月期间的信息,主要研究问题是如何在社交媒体环境下,对性骚扰等敏感问题进行数字化动员的言语分析。该数据集对心理语言学、社会语言学和计算语言学领域的研究人员具有很高的研究价值,有助于深入理解社交媒体上数字化社会运动的言辞空间。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:如何准确地从大量社交媒体数据中筛选出与#MeToo运动相关的内容,以及如何确保标注过程的高质量和高一致性。此外,由于Twitter的数据使用政策限制,数据集仅提供了推文ID和相应的标签,而原始推文内容需要通过Twitter API获取,这为数据的使用带来了一定的限制。数据集相关的挑战还包括如何处理和平衡数据中的个人隐私问题,以及如何避免在分析过程中放大对少数群体的偏见。
常用场景
经典使用场景
在涉及性骚扰揭露的社交媒体语境中,#MeTooMA数据集的典型应用场景是对推文进行多标签分类,以识别和量化与#MeToo运动相关的不同语言行为,如立场、仇恨言论、讽刺、对话行为等。该数据集特别适用于评估语言行为如何在公共性骚扰揭露的背景下交互作用,以及性别角色在性骚扰揭露中的虚拟动态。
衍生相关工作
#MeTooMA数据集催生了一系列相关研究,包括对社交媒体上性别角色的分析、对仇恨言论和讽刺的识别研究,以及基于该数据集构建的心理语言模型,这些工作进一步拓展了数据集的应用范围,并对其进行了深度挖掘。
数据集最近研究
最新研究方向
在#MeTooMA数据集的最新研究中,学者们专注于挖掘社交媒体上关于性骚扰披露的复杂语言行为,如指控、反驳和辩解等对话行为,及其与立场、仇恨言论和讽刺等语言成分的交互作用。此数据集以其丰富的标注类别和高度的专业标注一致性(0.79至0.93的k-alpha系数),为心理语言学、社会语言学和计算语言学领域的研究者提供了一个独特的研究平台,以探索数字化的社会运动在敏感议题上的话语空间。研究者们正在利用这一资源,进行性别角色在性骚扰揭露中的虚拟动态分析,以及公众人物在大型社会运动中的形象描绘等研究,旨在为已有的人干预工具和疗法提供辅助,并推动社会政策的变革。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

TIMIT

TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音,每个人阅读多达 10 个语音丰富的句子。

OpenDataLab 收录