five

JoshMcGiff/HomophobiaDetectionTwitterX

收藏
Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/JoshMcGiff/HomophobiaDetectionTwitterX
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了解决在线仇恨言论检测中的显著空白,特别是针对恐同内容的检测而开发的。它包含从X(前Twitter)抓取的推文,这些推文由来自不同背景的志愿者标注了是否包含恐同内容。该数据集是作者所知的最大的开源英文恐同检测数据集,旨在增强在线安全性和包容性。

该数据集是为了解决在线仇恨言论检测中的显著空白,特别是针对恐同内容的检测而开发的。它包含从X(前Twitter)抓取的推文,这些推文由来自不同背景的志愿者标注了是否包含恐同内容。该数据集是作者所知的最大的开源英文恐同检测数据集,旨在增强在线安全性和包容性。
提供机构:
JoshMcGiff
原始信息汇总

数据集概述

数据集名称

Homophobia Detection Dataset (Twitter/X)

数据集目的

该数据集旨在填补在线仇恨言论检测中的重要空白,特别是针对同性恋恐惧症的研究,这些内容在情感分析研究中常被忽视。

数据集内容

  • 数据来源:从X(原Twitter)上抓取的推文。
  • 数据标注:由来自不同背景的志愿者标注,用于识别同性恋恐惧症内容。
  • 数据结构
    • tweet_text:推文的文本内容。
    • label:二元标签,指示是否存在同性恋恐惧症内容(0 = 无同性恋恐惧症内容,1 = 有同性恋恐惧症内容)。
    • language:推文的语言,由X/Twitter标记。

数据集特点

  • 规模:据作者所知,这是最大的开源标记英语数据集,用于同性恋恐惧症检测。
  • 语言:仅包含英语。

使用注意事项

  • 社会影响:数据集用于研究目的,旨在对抗在线仇恨言论,提高数字平台的包容性和安全性。
  • 伦理考虑:鉴于仇恨言论的敏感性,研究者应考虑其工作对边缘化社区的影响,并确保使用数据集旨在减少伤害和促进包容性。
  • 法律和隐私问题:研究者应遵守关于仇恨言论和数据隐私的法律标准和伦理指南。

数据集创建

  • 来源数据:数据来自与LGBTQIA+社区相关的术语和账户。
  • 标注过程:由三名志愿者根据多数投票进行标注,使用Microsoft Excel进行多日标注。
  • 个人信息处理:用户名和其他个人标识已匿名化或移除,URL也已移除。

附加信息

  • 许可证:CC-BY-4.0
  • 致谢:本工作得到Science Foundation Ireland Centre for Research Training in Artificial Intelligence的资助,资助号为18/CRT/6223。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作