Hate-speech-detection-dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/verimsu/hate-speech-detection-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个主题的仇恨言论检测数据：移民和难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪以及性别问题（伊斯坦布尔公约）。

This dataset comprises hate speech detection data across four thematic areas: immigration and refugees, the Israel-Palestine conflict, anti-Greek sentiment in Turkey, and gender issues (Istanbul Convention).

创建时间：

2024-02-02

原始信息汇总

数据集概述

数据集名称

Hate-speech-dataset in Turkish

数据集内容

包含四个主题的仇恨言论检测数据集：

移民和难民
以色列-巴勒斯坦冲突
土耳其的反希腊情绪
性别问题（伊斯坦布尔公约）

数据集用途

用于SIU2023-NST和HSD-2Lang 2024竞赛。

数据集下载链接

Google Drive链接

引用信息

SIU2023-NST:

@INPROCEEDINGS{SIU2023-NST, author={Arın, İnanç and Işım, Zeynep and Kutal, Seçilay and Dehghan, Somaiyeh and Özgür, Arzucan and Yanikoğlu, Berrin}, booktitle={2023 31st Signal Processing and Communications Applications Conference (SIU)}, title={SIU2023-NST - Hate Speech Detection Contest}, year={2023}, pages={1-4}, doi={10.1109/SIU59756.2023.10223800} }
HSD-2Lang 2024:

@inproceedings{uludogan-etal-2024-overview, title = "Overview of the Hate Speech Detection in {T}urkish and {A}rabic Tweets ({HSD}-2{L}ang) Shared Task at {CASE} 2024", author = {Uludoğan, Gökçe and Dehghan, Somaiyeh and Arin, Inanc and Erol, Elif and Yanikoglu, Berrin and Özgür, Arzucan}, booktitle = "Proceedings of the 7th Workshop on Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2024)", month = mar, year = "2024", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.case-1.32", pages = "229--233" }

搜集汇总

数据集介绍

构建方式

该数据集，名为Hate-speech-detection-dataset，专注于土耳其语中的仇恨言论检测，涵盖了四个特定主题：移民与难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪以及性别问题（伊斯坦布尔公约）。数据集的构建通过系统性地收集和标注与这些主题相关的社交媒体文本，确保了数据的多样性和代表性。这一过程不仅涉及文本的收集，还包括对文本进行细致的分类和标注，以确保每条数据都能准确反映其所属的仇恨言论类别。

特点

此数据集的显著特点在于其多领域覆盖和高质量的标注。首先，数据集不仅限于单一主题，而是广泛涉及多个社会热点问题，这使得其在训练多领域仇恨言论检测模型时具有显著优势。其次，数据集的标注过程严格遵循专业标准，确保了每条数据的准确性和可靠性。此外，该数据集还参与了SIU2023-NST和HSD-2Lang 2024等国际竞赛，进一步验证了其质量和实用性。

使用方法

使用该数据集前，用户需阅读并签署“数据使用协议”，并通过指定邮箱提交签署后的协议副本。一旦协议被确认，用户可通过提供的链接请求数据集。数据集的使用主要集中在训练和评估仇恨言论检测模型，适用于自然语言处理领域的研究人员和开发者。为确保学术诚信，使用者在发表相关研究成果时应引用数据集的原始文献，具体引用格式可参考提供的参考文献列表。

背景与挑战

背景概述

Hate-speech-detection-dataset（SU-HS）是由土耳其萨班哲大学（Sabanci University）的研究团队创建的一个专注于土耳其语仇恨言论检测的数据集。该数据集涵盖了四个主要话题：移民和难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪以及性别问题（伊斯坦布尔公约）。该数据集的创建旨在为仇恨言论检测领域的研究提供一个标准化的测试平台，特别是在土耳其语和阿拉伯语的社交媒体文本分析中。通过参与SIU2023-NST和HSD-2Lang 2024等竞赛，该数据集已逐渐成为该领域的重要资源，推动了相关算法和模型的开发与评估。

当前挑战

Hate-speech-detection-dataset在构建过程中面临多重挑战。首先，仇恨言论的定义和边界在不同文化和语境中存在显著差异，这增加了数据标注的复杂性。其次，数据集涉及多个敏感话题，如移民、宗教冲突和性别问题，这些话题的情感和政治敏感性使得数据收集和处理过程需要极高的谨慎和专业性。此外，多领域仇恨言论的检测要求模型具备跨领域的泛化能力，这对现有算法提出了更高的要求。最后，数据集的使用需遵守严格的数据使用协议，确保数据的合法和道德使用，这也是一个不容忽视的挑战。

常用场景

经典使用场景

在自然语言处理领域，Hate-speech-detection-dataset 数据集的经典使用场景主要集中在仇恨言论的自动检测与分类。该数据集涵盖了四个主要话题：移民与难民、以色列-巴勒斯坦冲突、土耳其的反希腊情绪以及性别问题（伊斯坦布尔公约）。通过这些数据，研究人员可以开发和验证各种机器学习模型，以识别和分类社交媒体中的仇恨言论，从而为构建更加和谐的网络环境提供技术支持。

解决学术问题

Hate-speech-detection-dataset 数据集在学术研究中解决了仇恨言论检测的关键问题。通过提供多领域、多话题的仇恨言论样本，该数据集帮助研究人员克服了数据稀缺和领域偏差的问题，推动了跨文化、跨语言仇恨言论检测技术的发展。其意义在于，它不仅提升了仇恨言论检测模型的准确性和鲁棒性，还为相关领域的研究提供了宝贵的资源和基准。

衍生相关工作

基于 Hate-speech-detection-dataset 数据集，衍生了一系列重要的研究工作。例如，SIU2023-NST 和 HSD-2Lang 2024 竞赛中，研究人员利用该数据集开发了多种仇恨言论检测模型，并进行了广泛的评估和比较。此外，Dehghan 和 Yanikoglu 在 2024 年的研究中，探讨了 ChatGPT 在土耳其语仇恨言论检测中的应用，进一步扩展了该数据集的应用范围和研究深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集