tweets-hate-speech-detection/tweets_hate_speech_detection

Name: tweets-hate-speech-detection/tweets_hate_speech_detection
Creator: tweets-hate-speech-detection
Published: 2024-08-08 05:57:27
License: 暂无描述

Hugging Face2024-08-08 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/tweets-hate-speech-detection/tweets_hate_speech_detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在检测推文中的仇恨言论，特别是将包含种族主义或性别歧视情绪的推文与其他推文进行分类。这是一个二元分类任务，其中1表示仇恨言论，0表示非仇恨言论。数据集为单语种，包含英文推文，数据来源为原始推文。标注工作通过众包完成，数据集包含训练和测试分割。

提供机构：

tweets-hate-speech-detection

原始信息汇总

数据集卡片：Tweets Hate Speech Detection

数据集描述

数据集概要

该数据集旨在检测推文中的仇恨言论。简而言之，如果一条推文带有种族主义或性别歧视的情绪，我们就认为它包含仇恨言论。因此，任务是从其他推文中分类出种族主义或性别歧视的推文。

支持的任务和排行榜

[更多信息需补充]

语言

推文主要为英语。

数据集结构

数据实例

数据集包含一个标签，表示推文是否为仇恨言论。

json { "label": 0, # 非仇恨言论 "tweet": " @user when a father is dysfunctional and is so selfish he drags his kids into his dysfunction. #run" }

数据字段

label: 1 - 仇恨言论，0 - 非仇恨言论。
tweet: 推文内容，字符串格式。

数据分割

数据包含训练数据，共31962条记录。

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

通过众包从用户推文中收集。

源语言生产者

通过众包从Twitter收集。

注释

注释过程

数据已经过预处理，并训练了一个模型来为推文分配相关标签。

注释者

数据由Roshan Sharma提供。

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

通过该数据集，可以更深入地了解人类情感，并分析特定情况下某人意图使用仇恨/种族歧视评论的情况。

偏见讨论

数据可能需要进一步清理，以便应用更好的特征提取技术。

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

Roshan Sharma

许可信息

引用信息

贡献

感谢@darshan-gandhi添加此数据集。

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，仇恨言论检测数据集通常通过众包方式构建。本数据集源自Twitter平台，原始推文由用户生成，经过预处理后采用模型自动标注机制。数据收集过程聚焦于识别包含种族主义或性别歧视倾向的文本，通过二分类标签体系将推文划分为仇恨言论与非仇恨言论两类，最终形成包含训练集与测试集的标准化语料库。

使用方法

在自然语言处理应用中，该数据集主要用于文本分类任务，特别是仇恨言论检测模型的开发与验证。使用者可通过加载训练集进行模型训练，利用测试集评估分类性能，常用评估指标包括准确率、F1值及精确率与召回率等。数据字段映射清晰，文本与标签对应关系明确，支持直接应用于主流机器学习框架的二分类任务流程。

背景与挑战

背景概述

在社交媒体分析领域，仇恨言论检测已成为自然语言处理的重要研究方向。Tweets Hate Speech Detection数据集由研究人员Roshan Sharma等人构建，旨在通过机器学习模型识别推文中的种族主义或性别歧视内容。该数据集聚焦于文本分类任务，将推文标注为仇恨言论或非仇恨言论两类，为研究网络言论治理提供了关键数据支持。其创建基于众包方式收集的英文推文，涵盖了数万条标注样本，推动了情感分析与内容审核技术的发展，对促进网络环境健康具有显著影响力。

当前挑战

仇恨言论检测面临领域问题的固有挑战，包括语言表达的模糊性、文化语境差异以及讽刺或隐喻性内容的误判，这些因素使得模型在区分仇恨言论与普通言论时准确度受限。在数据集构建过程中，挑战主要源于众包标注的主观性，可能导致标签不一致；同时，推文数据的噪声处理，如缩写、俚语和拼写错误，增加了特征提取的复杂度。此外，数据平衡性问题，即仇恨言论样本相对稀缺，影响了模型的泛化能力，需通过更精细的预处理和增强技术来优化。

常用场景

经典使用场景

在社交媒体内容审核领域，仇恨言论检测已成为自然语言处理的关键任务。该数据集通过提供标注的推文样本，为研究者构建和评估二分类模型奠定了数据基础。经典使用场景聚焦于训练机器学习模型，以自动识别文本中隐含的种族主义或性别歧视倾向，从而实现对海量社交媒体内容的初步筛查。模型在此数据集上的性能优化，常被视为衡量算法在短文本情感分析中泛化能力的重要基准。

解决学术问题

该数据集有效解决了社交媒体中仇恨言论自动识别的学术挑战。研究者借助其标注数据，能够深入探究短文本语境下语义微妙性的捕捉方法，克服传统情感分析模型在识别隐含偏见方面的局限。其意义在于推动了细粒度文本分类技术的发展，为理解在线言论的社会心理影响提供了量化工具，促进了计算社会科学与自然语言处理领域的交叉融合。

实际应用

在实际应用层面，该数据集支撑的检测模型已被整合至社交媒体平台的内容审核系统中。通过实时扫描用户发布的推文，系统能够自动标记潜在仇恨言论，辅助人工审核团队优先处理高风险内容。此类技术也有助于非政府组织监测网络仇恨言论的传播趋势，为制定网络治理政策提供数据支持，从而在维护网络空间健康生态方面发挥积极作用。

数据集最近研究