ctoraman/large-scale-hate-speech-v1

Name: ctoraman/large-scale-hate-speech-v1
Creator: ctoraman
Published: 2023-11-30 11:41:18
License: 暂无描述

Hugging Face2023-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ctoraman/large-scale-hate-speech-v1

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-nc-sa-4.0 task_categories: - text-classification language: - en tags: - hate speech - hate speech detection - hate-speech - tweets - social media - topic - hate-speech-detection --- The dataset published in the LREC 2022 paper "Large-Scale Hate Speech Detection with Cross-Domain Transfer". # This is Dataset v1: The original dataset that includes 100,000 tweets in English. The annotations with more than 60% agreement are included. TweetID: Tweet ID from Twitter API LangID: 1 (English) TopicID: Domain of the topic 0-Religion, 1-Gender, 2-Race, 3-Politics, 4-Sports HateLabel: Final hate label decision 0-Normal, 1-Offensive, 2-Hate # GitHub Repo: https://github.com/avaapm/hatespeech # Citation: Toraman, C., Şahinuç, F., & Yilmaz, E. (2022, June). Large-Scale Hate Speech Detection with Cross-Domain Transfer. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 2215-2225).

许可证：CC BY-NC-SA 4.0 任务类别： - 文本分类（text-classification）语言： - 英语（en）标签： - 仇恨言论（hate speech） - 仇恨言论检测（hate speech detection） - 仇恨言论（hate-speech） - 推文（tweets） - 社交媒体（social media） - 主题（topic） - 仇恨言论检测（hate-speech-detection）本数据集发表于LREC 2022会议论文《跨域迁移的大规模仇恨言论检测（Large-Scale Hate Speech Detection with Cross-Domain Transfer）》。 # 数据集版本1：本原始数据集包含10万条英文推文，仅收录标注者间一致性占比超过60%的标注结果。推文ID（TweetID）：来自Twitter API的推文唯一标识符语言ID（LangID）：1（代表英语）主题ID（TopicID）：主题所属领域，0-宗教，1-性别，2-种族，3-政治，4-体育仇恨标签（HateLabel）：最终仇恨分类判定结果，0-正常内容，1-冒犯性内容，2-仇恨性内容 # GitHub仓库： https://github.com/avaapm/hatespeech # 引用信息：托拉曼（Toraman, C.）、沙希努奇（Şahinuç, F.）与伊尔马兹（Yilmaz, E.）于2022年6月发表的论文《跨域迁移的大规模仇恨言论检测（Large-Scale Hate Speech Detection with Cross-Domain Transfer）》，收录于第十三届语言资源与评价会议（Proceedings of the Thirteenth Language Resources and Evaluation Conference）论文集，第2215-2225页。

提供机构：

ctoraman

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
任务类别: text-classification
语言: en
标签: hate speech, hate speech detection, hate-speech, tweets, social media, topic, hate-speech-detection

数据集描述

名称: Dataset v1
内容: 包含100,000条英文推文，标注一致性超过60%。
字段说明:
- TweetID: 推特API中的推文ID
- LangID: 1（表示英文）
- TopicID: 主题领域（0-宗教, 1-性别, 2-种族, 3-政治, 4-体育）
- HateLabel: 最终的仇恨标签决定（0-正常, 1-冒犯性, 2-仇恨）

引用

Toraman, C., Şahinuç, F., & Yilmaz, E. (2022, June). Large-Scale Hate Speech Detection with Cross-Domain Transfer. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 2215-2225).

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，大规模仇恨言论检测数据集v1的构建体现了严谨的学术方法。该数据集源自LREC 2022会议论文，通过Twitter API采集了十万条英文推文作为原始语料。构建过程中，研究者依据超过60%的标注者一致性标准进行筛选，确保了标注结果的可靠性。每条数据均包含推文ID、语言标识、主题领域分类及仇恨言论标签，其中主题涵盖宗教、性别、种族、政治与体育五大领域，标签则区分正常、冒犯性与仇恨言论三类，形成了结构清晰的多维度标注体系。

特点

该数据集的核心特点在于其规模与标注深度。作为大规模仇恨言论检测研究的重要资源，它提供了十万条经过人工一致性校验的英文推文，覆盖了社交媒体中常见的多元话题领域。数据集的标注不仅包含二元的仇恨言论判断，还细分为正常、冒犯性与仇恨言论三级，并关联了具体的主题类别，支持细粒度的跨领域分析与模型迁移研究。此外，数据集配套发布了约两万张相关推文图像文件，为多模态仇恨言论检测提供了扩展可能，增强了其在复杂社交语境下的应用价值。

使用方法

在自然语言处理与内容安全研究中，该数据集主要用于文本分类任务的模型训练与评估。使用者可依据推文ID从原始来源获取文本内容，结合提供的主题ID与仇恨标签进行监督学习。典型应用包括构建仇恨言论检测分类器、探索不同主题领域的模型泛化能力，以及进行跨领域迁移学习实验。研究者需遵循CC-BY-NC-SA 4.0许可协议，通过引用原始论文确保学术合规性，并可访问关联的GitHub仓库获取完整的文本与图像数据以支持多模态分析。

背景与挑战

背景概述

仇恨言论检测作为自然语言处理领域的重要研究方向，旨在识别并过滤社交媒体中的有害内容。由Cihan Toraman、Furkan Şahinuç和Eyüp Yılmaz等研究人员于2022年构建的Large-Scale Hate Speech v1数据集，收录了10万条英文推文，涵盖宗教、性别、种族、政治和体育五大主题领域。该数据集通过多标注者一致性机制确保标注质量，为跨领域迁移学习提供了坚实基础，推动了社交媒体内容治理技术的进步。

当前挑战

仇恨言论检测面临语义模糊性与文化语境依赖性的双重挑战，不同社群对冒犯性内容的界定存在显著差异。数据构建过程中，标注者主观偏差与社交媒体文本的噪声干扰增加了标注一致性难度，同时图像与文本的多模态关联信息整合亦对模型设计提出更高要求。跨领域迁移时，主题分布差异易导致模型泛化能力下降，需探索更稳健的域适应方法。

常用场景

经典使用场景

在社交媒体内容审核领域，大规模仇恨言论检测数据集为自然语言处理研究提供了关键资源。该数据集通过标注超过10万条英文推文，涵盖宗教、性别、种族、政治和体育等多个话题领域，支持多类别仇恨言论识别模型的训练与评估。研究者常利用其构建深度学习分类器，如基于Transformer的预训练模型，以区分正常、冒犯性和仇恨言论，推动自动化内容过滤技术的发展。

实际应用

在实际应用中，该数据集被广泛集成于社交媒体平台的内容审核系统中，辅助自动识别和过滤仇恨言论。企业和技术团队利用其训练实时监测工具，以减轻人工审核负担，提升网络环境的健康度。此外，非政府组织和研究机构借助该数据集开发公共安全工具，用于追踪在线仇恨言论的传播模式，支持政策制定和社区干预措施的实施。

衍生相关工作

基于该数据集，多项经典研究工作得以衍生，包括跨领域迁移学习框架的优化和仇恨言论检测模型的创新。例如，研究者开发了结合多模态信息的扩展方法，整合推文关联的图像数据以提升检测精度。此外，该数据集还催生了针对特定话题的细粒度分析工具，以及用于评估模型偏差的基准测试，持续推动自然语言处理与社会计算领域的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集