ctoraman/large-scale-hate-speech-v2

Name: ctoraman/large-scale-hate-speech-v2
Creator: ctoraman
Published: 2023-11-30 11:50:49
License: 暂无描述

Hugging Face2023-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ctoraman/large-scale-hate-speech-v2

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-nc-sa-4.0 task_categories: - text-classification language: - en tags: - hate speech - hate speech detection - hate-speech - tweets - social media - topic - hate-speech-detection --- The dataset published in the LREC 2022 paper "Large-Scale Hate Speech Detection with Cross-Domain Transfer". # This is Dataset v2: The modified dataset that includes 68,597 tweets in English. The annotations with more than 80% agreement are included. TweetID: Tweet ID from Twitter API LangID: 1 (English) TopicID: Domain of the topic 0-Religion, 1-Gender, 2-Race, 3-Politics, 4-Sports HateLabel: Final hate label decision 0-Normal, 1-Offensive, 2-Hate # GitHub Repo: https://github.com/avaapm/hatespeech # Citation: Toraman, C., Şahinuç, F., & Yilmaz, E. (2022, June). Large-Scale Hate Speech Detection with Cross-Domain Transfer. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 2215-2225).

许可证：知识共享署名-非商业性使用-相同方式共享4.0（CC BY-NC-SA 4.0）任务类型： - 文本分类（text-classification）语言： - 英语（en）标注标签： - 仇恨言论（hate speech） - 仇恨言论检测（hate speech detection） - 仇恨言论（hate-speech） - 推文（tweets） - 社交媒体（social media） - 主题（topic） - 仇恨言论检测（hate-speech-detection）本数据集发表于LREC 2022会议论文《大规模仇恨言论检测与跨域迁移（Large-Scale Hate Speech Detection with Cross-Domain Transfer）》。 # 本数据集为版本2 该修订版数据集包含68597条英文推文，仅纳入标注共识度超过80%的标注结果。 ## 字段说明 - 推文ID（TweetID）：源自Twitter API的推文唯一标识符 - 语言ID（LangID）：取值为1时代表英文 - 主题ID（TopicID）：对应主题领域，0为宗教、1为性别、2为种族、3为政治、4为体育 - 仇恨标签（HateLabel）：最终标注判定结果，0为正常内容、1为冒犯性内容、2为仇恨性言论 # GitHub仓库 https://github.com/avaapm/hatespeech # 引用格式 Toraman C, Şahinuç F, Yilmaz E. 大规模仇恨言论检测与跨域迁移（Large-Scale Hate Speech Detection with Cross-Domain Transfer）[C]//第十三届语言资源与评价会议（LREC 2022）论文集. 2022年6月: 2215-2225.

提供机构：

ctoraman

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
任务类别: text-classification
语言: en
标签: hate speech, hate speech detection, hate-speech, tweets, social media, topic, hate-speech-detection

数据集描述

名称: Dataset v2
包含内容: 68,597条英文推文
标注: 包含超过80%一致性的标注

数据字段

TweetID: 推特API中的推文ID
LangID: 1 (英文)
TopicID: 话题领域 (0-宗教, 1-性别, 2-种族, 3-政治, 4-体育)
HateLabel: 最终的仇恨标签决定 (0-正常, 1-冒犯性, 2-仇恨)

引用

Toraman, C., Şahinuç, F., & Yilmaz, E. (2022, June). Large-Scale Hate Speech Detection with Cross-Domain Transfer. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 2215-2225).

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，大规模仇恨言论检测数据集ctoraman/large-scale-hate-speech-v2的构建体现了严谨的学术规范。该数据集源自LREC 2022会议论文的研究成果，通过Twitter API收集了68,597条英文推文，并采用多标注者共识机制进行标注，仅保留标注者间一致性超过80%的样本以确保标签可靠性。数据涵盖宗教、性别、种族、政治与体育五大主题领域，每条推文均标注为正常、冒犯性或仇恨言论三类，这种跨领域、多层次的标注体系为仇恨言论检测研究提供了结构化的数据基础。

使用方法

在自然语言处理的应用场景中，该数据集主要用于文本分类任务，特别是仇恨言论检测模型的训练与评估。研究者可依据推文ID关联原始数据，利用主题标签进行领域特定的分析或跨领域迁移实验。通过GitHub仓库获取完整数据集及图像文件后，可构建多模态检测框架。使用时应遵循CC-BY-NC-SA 4.0许可协议，并引用原始论文以尊重学术贡献，确保研究可复现性与伦理合规性。

背景与挑战

背景概述

随着社交媒体平台的普及，仇恨言论的自动检测成为自然语言处理领域的重要研究方向。ctoraman/large-scale-hate-speech-v2数据集由Toraman等人于2022年发布，作为LREC会议论文的核心成果，该数据集旨在支持大规模仇恨言论检测及跨领域迁移学习研究。数据集包含68,597条英文推文，覆盖宗教、性别、种族、政治和体育等多个主题领域，标注经过严格的一致性筛选，为学术界提供了高质量的基准资源。其构建不仅推动了仇恨言论检测模型的性能提升，还促进了跨领域适应性研究，对社交媒体内容治理具有显著影响力。

当前挑战

仇恨言论检测面临领域内挑战，包括言论的模糊性和语境依赖性，使得模型难以区分仇恨、冒犯与正常内容，尤其在多主题交叉场景下泛化能力受限。数据集构建过程中，挑战主要源于标注一致性：社交媒体文本的语义复杂性导致标注者间分歧，需通过高阈值协议确保数据质量；同时，推文关联的图像文件处理增加了多模态整合的难度，数据规模与标注成本之间的平衡也成为关键制约因素。

常用场景

经典使用场景

在社交媒体内容审核领域，ctoraman/large-scale-hate-speech-v2数据集作为大规模仇恨言论检测的基准资源，其经典使用场景聚焦于自然语言处理中的文本分类任务。该数据集通过标注超过68,000条英文推文，涵盖宗教、性别、种族、政治和体育等多个话题领域，为研究者提供了丰富的跨域仇恨言论样本。这些数据通常被用于训练和评估机器学习模型，以识别和区分正常、冒犯性及仇恨性内容，从而推动自动化内容过滤技术的发展。

解决学术问题

该数据集有效解决了仇恨言论检测中数据稀缺和领域泛化不足的学术挑战。通过提供大规模、多主题的标注数据，它支持跨域迁移学习研究，帮助模型克服特定领域偏见，提升在未见话题上的泛化能力。其标注基于高一致性协议，确保了数据的可靠性，为探索仇恨言论的语义特征、上下文依赖及跨文化差异提供了实证基础，显著推进了计算社会科学与伦理人工智能的交叉研究。

实际应用

在实际应用中，该数据集被广泛集成到社交媒体平台的内容审核系统中，用于自动监测和过滤在线仇恨言论。例如，科技公司利用基于此数据训练的模型，实时扫描用户生成的文本内容，识别潜在有害信息，辅助人工审核团队提高效率。此外，它还被应用于公共政策研究，帮助机构分析仇恨言论的传播模式，制定更有效的网络治理策略，促进数字空间的健康生态。

数据集最近研究