midas/metooma|社交媒体分析数据集|性别研究数据集
收藏#MeTooMA 数据集概述
数据集描述
数据集摘要
- 数据集包含与#MeToo 运动相关的推文,分为不同类别。
- 该数据集包含的数据点和标签比以往任何关于性侵犯披露的社交媒体数据集都要多。
- 由于 Twitter 的开发政策,作者仅提供推文 ID 和相应的标签,其他数据可通过 Twitter API 获取。
- 数据由专家标记,多数决定最终标签。
- 每条推文提供以下标签:
- 相关性
- 定向仇恨
- 普遍仇恨
- 讽刺
- 指控
- 正当化
- 反驳
- 支持
- 反对
- 所有推文的语言为英语。
- 时间范围:2018年10月至2018年12月。
- 建议的使用案例:
- 评估语言行为(如仇恨言论和讽刺)在公共性侵犯披露中的使用。
- 提取性别角色在性侵犯披露中的可操作见解和虚拟动态。
- 识别在社会运动事件中公众平台上影响力人物的描绘方式。
- 基于#MeToo 运动中用户社交节点的图模拟进行极化分析。
支持的任务和排行榜
多标签和多类别分类。
语言
英语。
数据集结构
- 数据集以 CSV 格式结构化,包含推文 ID 和相应的标签。
- 训练集和测试集分别存储在各自的文件中。
数据实例
推文 ID 和相应的标签。
数据字段
- TweetId: 字符串类型。
- Text_Only_Informative: 类别标签,包括“文本非信息性”和“文本信息性”。
- Image_Only_Informative: 类别标签,包括“图像非信息性”和“图像信息性”。
- Directed_Hate: 类别标签,包括“定向仇恨缺席”和“定向仇恨存在”。
- Generalized_Hate: 类别标签,包括“普遍仇恨缺席”和“普遍仇恨存在”。
- Sarcasm: 类别标签,包括“讽刺缺席”和“讽刺存在”。
- Allegation: 类别标签,包括“指控缺席”和“指控存在”。
- Justification: 类别标签,包括“正当化缺席”和“正当化存在”。
- Refutation: 类别标签,包括“反驳缺席”和“反驳存在”。
- Support: 类别标签,包括“支持缺席”和“支持存在”。
- Oppose: 类别标签,包括“反对缺席”和“反对存在”。
数据分割
- 训练集:7978 条数据,821738 字节。
- 测试集:1995 条数据,205489 字节。
数据集创建
策划理由
- Twitter 是#MeToo 运动期间性侵犯事件公共披露的主要来源。
- 人们表达了之前在社交媒体上缺失的意见。
- 这为研究社交媒体用户在非正式环境中的语言行为提供了机会。
- 作者期望该数据集对计算语言学家和社会语言学家都有很大兴趣和用途。
源数据
- 所有数据点来自 Twitter 社交媒体平台。
注释
注释过程
- 由于数据的高度敏感性,作者选择不使用众包进行标记。
- 注释者是具有高级临床心理学和性别研究学位的领域专家。
- 他们被提供了一个包含每个任务及其定义、标签和示例的指南文档。
- 注释过程不是互斥的,即一个标签的存在并不意味着另一个标签的缺失。
注释者
- 注释者是具有临床心理学和性别研究学位的领域专家。
个人和敏感信息
- 考虑到 Twitter 的数据分发政策,仅共享推文 ID 和适用的标签供公众使用。
- 强烈建议仅将此数据集用于科学目的。
使用数据的注意事项
数据集的社会影响
- 作者不打算对#MeToo 运动在 Twitter 上的影响进行人口统计分析。
- 该数据集的发现不应直接用于任何直接的社会干预,而应辅助现有的社会干预工具和疗法。
偏见的讨论
- #MeToo 运动作为推动社会政策变革的催化剂,旨在造福受性侵犯影响的社区成员。
- 任何基于此数据集的工作都应旨在减少对少数群体的偏见。
其他已知限制
- 考虑到隐私问题,社交媒体从业者应避免对性侵犯受害者进行自动干预。
- 关注的社会媒体用户可能会撤回其社交信息,如果他们发现其信息被用于计算目的。
附加信息
数据集策展人
- 如果您在产品或应用程序中使用该语料库,请适当致谢作者和 Multimodal Digital Media Analysis Lab - Indraprastha Institute of Information Technology, New Delhi。
- 如果您对语料库有任何反馈或合作意向,请随时与我们联系。
许可信息
[更多信息待补充]
引用信息
如果您使用该数据集,请引用以下出版物:https://ojs.aaai.org/index.php/ICWSM/article/view/7292

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
TIMIT
TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音,每个人阅读多达 10 个语音丰富的句子。
OpenDataLab 收录