ETHOS Hate Speech Dataset

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ETHOS: 多标签仇恨言论检测数据集。该数据集用于社交媒体平台上的仇恨言论检测，包含两个版本：Ethos_Dataset_Binary.csv 包含998条评论及其仇恨言论的存在与否标签；Ethos_Dataset_Multi_Label.csv 包含433条带有仇恨言论内容的评论，以及8个关于仇恨言论类型的标签。

ETHOS: A Multi-label Hate Speech Detection Dataset. This dataset is designed for the detection of hate speech on social media platforms and includes two versions: Ethos_Dataset_Binary.csv contains 998 comments along with labels indicating the presence or absence of hate speech; Ethos_Dataset_Multi_Label.csv includes 433 comments with hate speech content, along with 8 labels categorizing the types of hate speech.

创建时间：

2020-05-25

原始信息汇总

ETHOS Hate Speech Dataset 概述

数据集版本

Ethos_Dataset_Binary.csv: 包含998条评论，其中565条不包含仇恨言论，433条包含仇恨言论。每条评论标记为仇恨言论的存在或不存在。
Ethos_Dataset_Multi_Label.csv: 包含433条含有仇恨言论的评论，并附有8个标签，包括暴力（是否煽动暴力）、定向与一般（是否针对个人或群体）以及6个关于仇恨言论类别的标签，如性别、种族、国籍、残疾、宗教和性取向。

引用信息

若在研究中使用此数据集，请引用以下文献：

@article{mollas_ethos_2022, title = {{ETHOS}: a multi-label hate speech detection dataset}, issn = {2198-6053}, url = {https://doi.org/10.1007/s40747-021-00608-2}, doi = {10.1007/s40747-021-00608-2}, journal = {Complex & Intelligent Systems}, author = {Mollas, Ioannis and Chrysopoulou, Zoe and Karlos, Stamatis and Tsoumakas, Grigorios}, month = jan, year = {2022}, }

搜集汇总

数据集介绍

构建方式

在构建ETHOS Hate Speech Dataset时，研究者们精心设计了两种数据集变体，以满足不同层次的分析需求。首先，Ethos_Dataset_Binary.csv包含了998条社交媒体评论，每条评论均被标记为是否含有仇恨言论。其中，565条评论被标记为不含有仇恨言论，而其余433条则被标记为含有仇恨言论。其次，Ethos_Dataset_Multi_Label.csv进一步细化了这433条含有仇恨言论的评论，为其分配了8个标签，涵盖了暴力倾向、针对对象以及仇恨言论的具体类别（如性别、种族、宗教等）。这种多层次的标签体系，旨在提供更为细致和全面的仇恨言论检测框架。

特点

ETHOS Hate Speech Dataset的显著特点在于其多标签分类的精细度。该数据集不仅区分了仇恨言论的存在与否，还进一步细化了仇恨言论的性质和目标。通过引入多标签系统，研究者能够更准确地识别和分类不同类型的仇恨言论，从而为相关研究提供更为丰富的数据支持。此外，数据集的构建基于社交媒体平台，确保了数据的实时性和广泛性，使其在当前的网络环境中具有极高的应用价值。

使用方法

使用ETHOS Hate Speech Dataset时，研究者可以根据具体需求选择合适的变体。对于初学者或需要简单分类的研究，Ethos_Dataset_Binary.csv提供了直接的二元分类结果，便于快速上手。而对于需要深入分析仇恨言论性质的研究，Ethos_Dataset_Multi_Label.csv则提供了更为详尽的多标签信息，支持更复杂的模型训练和分析。在使用过程中，建议研究者参考相关文献和数据集的许可证，确保合法合规地进行数据处理和分析。

背景与挑战

背景概述

在社交媒体日益成为信息传播和交流的主要平台之际，仇恨言论的检测与管理成为一个紧迫的议题。ETHOS Hate Speech Dataset，由Ioannis Mollas、Zoe Chrysopoulou、Stamatis Karlos和Grigorios Tsoumakas等研究人员于2022年创建，旨在为多标签仇恨言论检测提供一个全面的基准。该数据集包含998条社交媒体评论，分为二元分类和多标签分类两种版本。ETHOS数据集不仅标记了仇恨言论的存在与否，还进一步细化了仇恨言论的类型和指向性，如暴力倾向、性别歧视、种族歧视等。这一数据集的推出，极大地推动了仇恨言论检测技术的发展，为相关研究提供了宝贵的资源。

当前挑战

ETHOS Hate Speech Dataset在构建过程中面临了多重挑战。首先，仇恨言论的定义和分类本身就是一个复杂的问题，涉及文化、社会和法律等多个维度。其次，数据集的多样性和代表性也是一个重要挑战，确保数据能够覆盖不同类型的仇恨言论和不同的社交媒体平台。此外，如何准确地标注和验证数据也是一个技术难题，需要高度专业化的知识和大量的时间投入。最后，随着社交媒体环境的快速变化，数据集的时效性和更新频率也是一个持续的挑战。

常用场景

经典使用场景

在社交媒体内容分析领域，ETHOS Hate Speech Dataset 被广泛应用于仇恨言论的检测与分类。该数据集不仅提供了二元分类的标签，即是否存在仇恨言论，还进一步细化了多标签分类，涵盖了仇恨言论的具体类型及其潜在的暴力倾向。这种细致的分类使得研究人员能够更精确地理解和应对不同形式的仇恨言论，从而为构建更有效的检测模型提供了坚实的基础。

解决学术问题

ETHOS Hate Speech Dataset 解决了在仇恨言论检测领域中长期存在的多维度分类问题。传统的仇恨言论检测往往仅限于二元分类，而该数据集通过引入多标签分类，使得研究者能够更深入地探讨仇恨言论的复杂性。这不仅提升了模型的准确性和鲁棒性，还为相关领域的学术研究提供了丰富的数据支持，推动了仇恨言论检测技术的发展。

衍生相关工作

基于 ETHOS Hate Speech Dataset，研究者们开展了一系列相关工作，包括但不限于改进仇恨言论检测算法、开发多模态检测系统以及探索仇恨言论的传播机制。这些工作不仅提升了检测技术的准确性和效率，还为政策制定者和社交媒体平台提供了宝贵的参考，推动了仇恨言论治理的科学化和规范化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集