TRT_Data_Warriors_tackling_hate_speech

github2023-12-25 更新2024-05-31 收录

下载链接：

https://github.com/TRT-Data-Warriors/Tackling-Hate-Speech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于通过自然语言处理技术检测贬义言论，包括侮辱、种族歧视、性别歧视和亵渎等内容。数据集通过从Twitter、İnci Sözlük、Ekşi Sözlük等来源收集用户评论，并结合其他数据集进行数据增强，以提高模型的泛化能力和对文本的理解。

This dataset is designed for the detection of derogatory remarks through natural language processing techniques, encompassing insults, racial discrimination, gender discrimination, and profanity. The dataset is compiled by gathering user comments from sources such as Twitter, İnci Sözlük, and Ekşi Sözlük, and is enhanced by integrating with other datasets to improve the model's generalization capabilities and textual comprehension.

创建时间：

2023-03-14

原始信息汇总

数据集概述

数据集名称

Aşağılayıcı Söylemlerin Doğal Dil İşleme İle Tespiti (侮辱性言论的自然语言处理检测)

数据集描述

该数据集用于通过自然语言处理技术检测侮辱性言论，包括种族歧视、性别歧视、侮辱等类别。

数据增强

训练数据集增加了约6k新数据。
数据增强后的各类别数据量变化如下：

类别原始数据量数据增强后数据量增加量

OTHER 3616 8455 4839

INSULT 2419 2890 471

RACIST 2017 2475 458

SEXIST 2112 2192 80

PROFANITY 2398 2854 456

数据来源

数据来源于Twitter、İnci Sözlük、Ekşi Sözlük等网站的用户评论。
还包括其他几个数据集：Toygar/turkish-offensive-language-detection、Offenseval、Çöltekin Troff、avaapm/hatespeech。

硬件配置

GPU: NVIDIA RTX A6000 48GB
Processor: AMD EPYC 7742 64-Core Processor
RAM: 256GB

模型性能

使用多种模型进行测试，包括TFIDF + Catboost/XGB、Fasttext/Word2Vec + BiLSTM/CNN、BERTurk等。
最佳模型为Ensemble模型，F1-MACRO得分为0.97003，各类别F1得分均在0.93以上。

运行指令

运行脚本为python run.py，参数包括训练数据路径、验证数据路径、最大长度、epochs和batch_size。

参考文献

数据集的研究和应用参考了多篇学术论文，涉及土耳其语的仇恨言论检测和系统开发。

搜集汇总

数据集介绍

构建方式

TRT_Data_Warriors_tackling_hate_speech数据集的构建过程主要依赖于多源数据的整合与增强。数据集通过从Twitter、İnci Sözlük、Ekşi Sözlük等社交媒体平台收集用户评论，并结合Hugging Face上的Turkish Offensive Language Detection数据集、Offenseval数据集以及Çöltekin Troff数据集进行扩展。此外，数据集还利用ChatGPT和Google Translate服务进行数据增强，以提升模型的泛化能力。数据增强过程中，训练集新增了约6000条数据，涵盖了多种语言和表达方式，确保模型能够更好地理解和处理复杂的语言现象。

使用方法

使用TRT_Data_Warriors_tackling_hate_speech数据集时，用户可以通过提供的Python脚本或Jupyter Notebook进行模型训练和验证。数据集支持多种深度学习模型，包括BERTurk、ConvBERTurk等预训练模型，并结合BiLSTM、Bi-GRU、CNN等架构进行微调。用户可以通过命令行参数指定训练数据路径、最大序列长度、训练轮数和批量大小等超参数。此外，数据集还提供了详细的模型性能对比和Ensemble模型的实现方法，帮助用户快速构建高效的仇恨言论检测系统。

背景与挑战

背景概述

TRT_Data_Warriors_tackling_hate_speech数据集由TRT DATA WARRIORS团队创建，旨在通过自然语言处理技术检测土耳其语中的仇恨言论。该数据集的研究背景源于社交媒体平台上日益增多的仇恨言论问题，尤其是在土耳其语环境中，这一问题尤为突出。数据集的核心研究问题是通过机器学习模型准确识别和分类不同类型的仇恨言论，包括侮辱、种族歧视、性别歧视和亵渎等。该数据集的研究成果已在多个国际会议上发表，对土耳其语自然语言处理领域产生了重要影响，尤其是在仇恨言论检测方面。

当前挑战

TRT_Data_Warriors_tackling_hate_speech数据集在构建和应用过程中面临多重挑战。首先，仇恨言论的多样性和模糊性使得准确分类变得复杂，尤其是在不同文化背景下，仇恨言论的表达方式可能截然不同。其次，数据集的构建依赖于从多个社交媒体平台和公开数据源收集数据，这带来了数据质量和一致性的问题。此外，数据增强技术的应用虽然提升了模型的泛化能力，但也可能导致数据分布的不平衡，进而影响模型的性能。最后，尽管使用了BERTurk等先进的预训练模型进行微调，但在处理土耳其语特有的语言结构和表达方式时，仍需进一步优化模型架构和训练策略。

常用场景

经典使用场景

TRT_Data_Warriors_tackling_hate_speech数据集在自然语言处理领域中被广泛应用于仇恨言论的检测与分类。该数据集通过多种深度学习模型（如BERTurk、ConvBERTurk等）进行训练，能够有效识别土耳其语中的侮辱性、种族歧视、性别歧视和亵渎性言论。其经典使用场景包括社交媒体平台的内容审核、在线社区的言论管理以及公共安全领域的舆情监控。

解决学术问题

该数据集解决了自然语言处理领域中的仇恨言论检测难题，尤其是在土耳其语语境下的挑战。通过数据增强技术，数据集扩展了训练样本，提升了模型的泛化能力。其高精度的分类结果（如Ensemble模型的F1-Macro得分达到0.97003）为学术界提供了可靠的基准，推动了跨语言仇恨言论检测的研究进展。

实际应用

在实际应用中，TRT_Data_Warriors_tackling_hate_speech数据集被用于构建自动化内容审核系统，帮助社交媒体平台识别并过滤有害言论。此外，该数据集还被应用于公共安全领域，用于监测网络舆情中的仇恨言论，预防潜在的暴力事件。其高精度模型为在线社区提供了更安全的交流环境。

数据集最近研究

类别	原始数据量	数据增强后数据量	增加量
OTHER	3616	8455	4839
INSULT	2419	2890	471
RACIST	2017	2475	458
SEXIST	2112	2192	80
PROFANITY	2398	2854	456