JoshMcGiff/HomophobiaDetectionTwitterX
收藏Hugging Face2024-03-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/JoshMcGiff/HomophobiaDetectionTwitterX
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了解决在线仇恨言论检测中的显著空白,特别是针对恐同内容的检测而开发的。它包含从X(前Twitter)抓取的推文,这些推文由来自不同背景的志愿者标注了是否包含恐同内容。该数据集是作者所知的最大的开源英文恐同检测数据集,旨在增强在线安全性和包容性。
该数据集是为了解决在线仇恨言论检测中的显著空白,特别是针对恐同内容的检测而开发的。它包含从X(前Twitter)抓取的推文,这些推文由来自不同背景的志愿者标注了是否包含恐同内容。该数据集是作者所知的最大的开源英文恐同检测数据集,旨在增强在线安全性和包容性。
提供机构:
JoshMcGiff
原始信息汇总
数据集概述
数据集名称
Homophobia Detection Dataset (Twitter/X)
数据集目的
该数据集旨在填补在线仇恨言论检测中的重要空白,特别是针对同性恋恐惧症的研究,这些内容在情感分析研究中常被忽视。
数据集内容
- 数据来源:从X(原Twitter)上抓取的推文。
- 数据标注:由来自不同背景的志愿者标注,用于识别同性恋恐惧症内容。
- 数据结构:
tweet_text:推文的文本内容。label:二元标签,指示是否存在同性恋恐惧症内容(0 = 无同性恋恐惧症内容,1 = 有同性恋恐惧症内容)。language:推文的语言,由X/Twitter标记。
数据集特点
- 规模:据作者所知,这是最大的开源标记英语数据集,用于同性恋恐惧症检测。
- 语言:仅包含英语。
使用注意事项
- 社会影响:数据集用于研究目的,旨在对抗在线仇恨言论,提高数字平台的包容性和安全性。
- 伦理考虑:鉴于仇恨言论的敏感性,研究者应考虑其工作对边缘化社区的影响,并确保使用数据集旨在减少伤害和促进包容性。
- 法律和隐私问题:研究者应遵守关于仇恨言论和数据隐私的法律标准和伦理指南。
数据集创建
- 来源数据:数据来自与LGBTQIA+社区相关的术语和账户。
- 标注过程:由三名志愿者根据多数投票进行标注,使用Microsoft Excel进行多日标注。
- 个人信息处理:用户名和其他个人标识已匿名化或移除,URL也已移除。
附加信息
- 许可证:CC-BY-4.0
- 致谢:本工作得到Science Foundation Ireland Centre for Research Training in Artificial Intelligence的资助,资助号为18/CRT/6223。



