five

ctoraman/large-scale-hate-speech-v1

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ctoraman/large-scale-hate-speech-v1
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-sa-4.0 task_categories: - text-classification language: - en tags: - hate speech - hate speech detection - hate-speech - tweets - social media - topic - hate-speech-detection --- The dataset published in the LREC 2022 paper "Large-Scale Hate Speech Detection with Cross-Domain Transfer". # This is Dataset v1: The original dataset that includes 100,000 tweets in English. The annotations with more than 60% agreement are included. TweetID: Tweet ID from Twitter API LangID: 1 (English) TopicID: Domain of the topic 0-Religion, 1-Gender, 2-Race, 3-Politics, 4-Sports HateLabel: Final hate label decision 0-Normal, 1-Offensive, 2-Hate # GitHub Repo: https://github.com/avaapm/hatespeech # Citation: Toraman, C., Şahinuç, F., & Yilmaz, E. (2022, June). Large-Scale Hate Speech Detection with Cross-Domain Transfer. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 2215-2225).

许可证:CC BY-NC-SA 4.0 任务类别: - 文本分类(text-classification) 语言: - 英语(en) 标签: - 仇恨言论(hate speech) - 仇恨言论检测(hate speech detection) - 仇恨言论(hate-speech) - 推文(tweets) - 社交媒体(social media) - 主题(topic) - 仇恨言论检测(hate-speech-detection) 本数据集发表于LREC 2022会议论文《跨域迁移的大规模仇恨言论检测(Large-Scale Hate Speech Detection with Cross-Domain Transfer)》。 # 数据集版本1: 本原始数据集包含10万条英文推文,仅收录标注者间一致性占比超过60%的标注结果。 推文ID(TweetID):来自Twitter API的推文唯一标识符 语言ID(LangID):1(代表英语) 主题ID(TopicID):主题所属领域,0-宗教,1-性别,2-种族,3-政治,4-体育 仇恨标签(HateLabel):最终仇恨分类判定结果,0-正常内容,1-冒犯性内容,2-仇恨性内容 # GitHub仓库: https://github.com/avaapm/hatespeech # 引用信息: 托拉曼(Toraman, C.)、沙希努奇(Şahinuç, F.)与伊尔马兹(Yilmaz, E.)于2022年6月发表的论文《跨域迁移的大规模仇恨言论检测(Large-Scale Hate Speech Detection with Cross-Domain Transfer)》,收录于第十三届语言资源与评价会议(Proceedings of the Thirteenth Language Resources and Evaluation Conference)论文集,第2215-2225页。
提供机构:
ctoraman
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-sa-4.0
  • 任务类别: text-classification
  • 语言: en
  • 标签: hate speech, hate speech detection, hate-speech, tweets, social media, topic, hate-speech-detection

数据集描述

  • 名称: Dataset v1
  • 内容: 包含100,000条英文推文,标注一致性超过60%。
  • 字段说明:
    • TweetID: 推特API中的推文ID
    • LangID: 1(表示英文)
    • TopicID: 主题领域(0-宗教, 1-性别, 2-种族, 3-政治, 4-体育)
    • HateLabel: 最终的仇恨标签决定(0-正常, 1-冒犯性, 2-仇恨)

引用

Toraman, C., Şahinuç, F., & Yilmaz, E. (2022, June). Large-Scale Hate Speech Detection with Cross-Domain Transfer. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 2215-2225).

搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体内容分析领域,大规模仇恨言论检测数据集v1的构建体现了严谨的学术方法。该数据集源自LREC 2022会议论文,通过Twitter API采集了十万条英文推文作为原始语料。构建过程中,研究者依据超过60%的标注者一致性标准进行筛选,确保了标注结果的可靠性。每条数据均包含推文ID、语言标识、主题领域分类及仇恨言论标签,其中主题涵盖宗教、性别、种族、政治与体育五大领域,标签则区分正常、冒犯性与仇恨言论三类,形成了结构清晰的多维度标注体系。
特点
该数据集的核心特点在于其规模与标注深度。作为大规模仇恨言论检测研究的重要资源,它提供了十万条经过人工一致性校验的英文推文,覆盖了社交媒体中常见的多元话题领域。数据集的标注不仅包含二元的仇恨言论判断,还细分为正常、冒犯性与仇恨言论三级,并关联了具体的主题类别,支持细粒度的跨领域分析与模型迁移研究。此外,数据集配套发布了约两万张相关推文图像文件,为多模态仇恨言论检测提供了扩展可能,增强了其在复杂社交语境下的应用价值。
使用方法
在自然语言处理与内容安全研究中,该数据集主要用于文本分类任务的模型训练与评估。使用者可依据推文ID从原始来源获取文本内容,结合提供的主题ID与仇恨标签进行监督学习。典型应用包括构建仇恨言论检测分类器、探索不同主题领域的模型泛化能力,以及进行跨领域迁移学习实验。研究者需遵循CC-BY-NC-SA 4.0许可协议,通过引用原始论文确保学术合规性,并可访问关联的GitHub仓库获取完整的文本与图像数据以支持多模态分析。
背景与挑战
背景概述
仇恨言论检测作为自然语言处理领域的重要研究方向,旨在识别并过滤社交媒体中的有害内容。由Cihan Toraman、Furkan Şahinuç和Eyüp Yılmaz等研究人员于2022年构建的Large-Scale Hate Speech v1数据集,收录了10万条英文推文,涵盖宗教、性别、种族、政治和体育五大主题领域。该数据集通过多标注者一致性机制确保标注质量,为跨领域迁移学习提供了坚实基础,推动了社交媒体内容治理技术的进步。
当前挑战
仇恨言论检测面临语义模糊性与文化语境依赖性的双重挑战,不同社群对冒犯性内容的界定存在显著差异。数据构建过程中,标注者主观偏差与社交媒体文本的噪声干扰增加了标注一致性难度,同时图像与文本的多模态关联信息整合亦对模型设计提出更高要求。跨领域迁移时,主题分布差异易导致模型泛化能力下降,需探索更稳健的域适应方法。
常用场景
经典使用场景
在社交媒体内容审核领域,大规模仇恨言论检测数据集为自然语言处理研究提供了关键资源。该数据集通过标注超过10万条英文推文,涵盖宗教、性别、种族、政治和体育等多个话题领域,支持多类别仇恨言论识别模型的训练与评估。研究者常利用其构建深度学习分类器,如基于Transformer的预训练模型,以区分正常、冒犯性和仇恨言论,推动自动化内容过滤技术的发展。
实际应用
在实际应用中,该数据集被广泛集成于社交媒体平台的内容审核系统中,辅助自动识别和过滤仇恨言论。企业和技术团队利用其训练实时监测工具,以减轻人工审核负担,提升网络环境的健康度。此外,非政府组织和研究机构借助该数据集开发公共安全工具,用于追踪在线仇恨言论的传播模式,支持政策制定和社区干预措施的实施。
衍生相关工作
基于该数据集,多项经典研究工作得以衍生,包括跨领域迁移学习框架的优化和仇恨言论检测模型的创新。例如,研究者开发了结合多模态信息的扩展方法,整合推文关联的图像数据以提升检测精度。此外,该数据集还催生了针对特定话题的细粒度分析工具,以及用于评估模型偏差的基准测试,持续推动自然语言处理与社会计算领域的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作