iamollas/ethos

Name: iamollas/ethos
Creator: iamollas
Published: 2024-01-18 11:03:20
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/iamollas/ethos

下载链接

链接失效反馈

官方服务：

资源简介：

Ethos数据集是一个用于在线仇恨言论检测的数据集，包含两个版本：二进制版本和多标签版本。二进制版本包含998条评论，标记为是否包含仇恨言论；多标签版本包含433条评论，标记了仇恨言论的具体类别，如暴力、性别、种族等。数据集的文本为英文，来源于YouTube和Reddit的评论。数据集由Intelligent Systems Lab创建，并使用了AGPL-3.0许可证。

提供机构：

iamollas

原始信息汇总

数据集概述

名称: onlinE haTe speecH detectiOn dataSet (ETHOS)

语言: 英语

许可证: AGPL-3.0

多语言性: 单语

大小: 小于1000条记录

来源: 原始数据

任务类别: 文本分类

任务ID: 多标签分类, 情感分类

标签: Hate Speech Detection

数据集结构

配置名称

binary: 包含998条评论，标签为no_hate_speech和hate_speech。
multilabel: 包含433条评论，包含8个标签：violence, directed_vs_generalized, gender, race, national_origin, disability, religion, sexual_orientation。

数据字段

binary:
- text: 字符串类型，评论文本。
- label: 分类标签，值为no_hate_speech或hate_speech。
multilabel:
- text: 字符串类型，评论文本。
- violence: 分类标签，值为not_violent或violent。
- directed_vs_generalized: 分类标签，值为generalized或directed。
- gender, race, national_origin, disability, religion, sexual_orientation: 分类标签，值为false或true。

数据分割

binary: 训练集包含998条记录，数据大小为124823字节。
multilabel: 训练集包含433条记录，数据大小为79112字节。

数据集创建

注释过程

创建者: 众包和专家生成
语言创建者: 发现和其他

来源数据

初始数据收集: 来自YouTube视频和Reddit评论，可能包含仇恨言论内容。
语言生产者: Reddit和YouTube用户

注释

注释者: Ioannis Mollas，通过Figure8平台验证

个人和敏感信息

信息: 数据集中未包含个人和敏感信息

使用数据注意事项

社会影响: 有助于自动化仇恨言论检测工具的发展，预防社会问题。
偏见讨论: 数据集尝试对类别和标签保持中立。
已知限制: 数据集相对较小，建议与其他更大的数据集结合使用。

搜集汇总

数据集介绍

构建方式

ETHOS数据集的构建基于从YouTube视频和Reddit评论中收集的在线评论，这些平台因其可能吸引仇恨言论的内容而被选择。数据集的构建过程中，首先通过众包和专家生成的方式进行标注，确保了数据的高质量。随后，数据被分为二元分类和多标签分类两个版本，分别用于检测仇恨言论的存在与否以及仇恨言论的具体类别。

特点

ETHOS数据集的显著特点在于其多层次的分类结构。二元分类版本主要区分评论是否包含仇恨言论，而多标签分类版本则进一步细分为暴力、性别、种族等多个子类别。这种设计使得数据集不仅适用于基本的仇恨言论检测，还能支持更复杂的情感和多标签分类任务。

使用方法

使用ETHOS数据集时，研究者可以根据需求选择二元分类或多标签分类版本。对于二元分类，数据集提供了文本和标签两个字段，标签指示评论是否包含仇恨言论。多标签分类版本则提供了更详细的标签，包括暴力、性别、种族等多个维度。研究者可以通过这些标签训练模型，以实现更精准的仇恨言论检测和分类。

背景与挑战

背景概述

在当今数字化社会中，网络仇恨言论的检测成为一个日益重要的研究领域。ETHOS数据集，由Intelligent Systems Lab于2020年创建，专注于在线仇恨言论的检测。该数据集通过收集YouTube视频和Reddit评论中的数据，旨在为仇恨言论检测模型提供训练和评估的基础。ETHOS数据集的创建不仅填补了该领域的数据空白，还为多标签分类算法的发展提供了宝贵的资源。其核心研究问题是如何准确识别和分类网络上的仇恨言论，这对于维护网络环境的和谐与安全具有重要意义。

当前挑战

ETHOS数据集在构建过程中面临多项挑战。首先，仇恨言论的定义和边界模糊，导致标注过程中的主观性和不一致性。其次，数据集的规模相对较小，限制了其在深度学习模型中的应用效果。此外，仇恨言论的多样性和复杂性使得多标签分类任务变得尤为困难。最后，数据集的构建需要处理来自不同社交平台的文本数据，这些数据可能包含隐晦的仇恨言论，增加了检测的难度。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，ETHOS数据集的经典使用场景主要集中在仇恨言论检测任务上。该数据集通过提供包含仇恨言论和非仇恨言论的文本样本，帮助研究人员训练和评估仇恨言论检测模型。其二元分类版本适用于简单的仇恨言论存在与否的判断，而多标签版本则进一步细化了仇恨言论的类型和属性，如暴力倾向、针对性别的仇恨言论等，为更复杂的分类任务提供了丰富的数据支持。

解决学术问题

ETHOS数据集在学术研究中解决了仇恨言论自动检测的关键问题。通过提供高质量的标注数据，该数据集使得研究人员能够开发和验证仇恨言论检测算法，从而推动了自然语言处理技术在这一敏感领域的应用。此外，多标签分类的引入，使得研究者可以更细致地分析和理解仇恨言论的多样性和复杂性，为构建更加精准和全面的检测系统提供了理论和实践基础。

衍生相关工作

ETHOS数据集的发布催生了一系列相关研究工作。例如，有研究者基于该数据集开发了新的仇恨言论检测算法，提升了检测的准确性和效率。同时，也有学者利用该数据集进行跨语言仇恨言论检测的研究，探索如何在不同语言环境下应用相同的检测技术。此外，该数据集还激发了对仇恨言论生成机制的研究，为理解仇恨言论的传播和影响提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集