iamollas/ethos
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/iamollas/ethos
下载链接
链接失效反馈官方服务:
资源简介:
Ethos数据集是一个用于在线仇恨言论检测的数据集,包含两个版本:二进制版本和多标签版本。二进制版本包含998条评论,标记为是否包含仇恨言论;多标签版本包含433条评论,标记了仇恨言论的具体类别,如暴力、性别、种族等。数据集的文本为英文,来源于YouTube和Reddit的评论。数据集由Intelligent Systems Lab创建,并使用了AGPL-3.0许可证。
Ethos数据集是一个用于在线仇恨言论检测的数据集,包含两个版本:二进制版本和多标签版本。二进制版本包含998条评论,标记为是否包含仇恨言论;多标签版本包含433条评论,标记了仇恨言论的具体类别,如暴力、性别、种族等。数据集的文本为英文,来源于YouTube和Reddit的评论。数据集由Intelligent Systems Lab创建,并使用了AGPL-3.0许可证。
提供机构:
iamollas
原始信息汇总
数据集概述
名称: onlinE haTe speecH detectiOn dataSet (ETHOS)
语言: 英语
许可证: AGPL-3.0
多语言性: 单语
大小: 小于1000条记录
来源: 原始数据
任务类别: 文本分类
任务ID: 多标签分类, 情感分类
标签: Hate Speech Detection
数据集结构
配置名称
- binary: 包含998条评论,标签为
no_hate_speech和hate_speech。 - multilabel: 包含433条评论,包含8个标签:
violence,directed_vs_generalized,gender,race,national_origin,disability,religion,sexual_orientation。
数据字段
-
binary:
text: 字符串类型,评论文本。label: 分类标签,值为no_hate_speech或hate_speech。
-
multilabel:
text: 字符串类型,评论文本。violence: 分类标签,值为not_violent或violent。directed_vs_generalized: 分类标签,值为generalized或directed。gender,race,national_origin,disability,religion,sexual_orientation: 分类标签,值为false或true。
数据分割
- binary: 训练集包含998条记录,数据大小为124823字节。
- multilabel: 训练集包含433条记录,数据大小为79112字节。
数据集创建
注释过程
- 创建者: 众包和专家生成
- 语言创建者: 发现和其他
来源数据
- 初始数据收集: 来自YouTube视频和Reddit评论,可能包含仇恨言论内容。
- 语言生产者: Reddit和YouTube用户
注释
- 注释者: Ioannis Mollas,通过Figure8平台验证
个人和敏感信息
- 信息: 数据集中未包含个人和敏感信息
使用数据注意事项
- 社会影响: 有助于自动化仇恨言论检测工具的发展,预防社会问题。
- 偏见讨论: 数据集尝试对类别和标签保持中立。
- 已知限制: 数据集相对较小,建议与其他更大的数据集结合使用。
搜集汇总
数据集介绍

构建方式
ETHOS数据集的构建基于从YouTube视频和Reddit评论中收集的在线评论,这些平台因其可能吸引仇恨言论的内容而被选择。数据集的构建过程中,首先通过众包和专家生成的方式进行标注,确保了数据的高质量。随后,数据被分为二元分类和多标签分类两个版本,分别用于检测仇恨言论的存在与否以及仇恨言论的具体类别。
特点
ETHOS数据集的显著特点在于其多层次的分类结构。二元分类版本主要区分评论是否包含仇恨言论,而多标签分类版本则进一步细分为暴力、性别、种族等多个子类别。这种设计使得数据集不仅适用于基本的仇恨言论检测,还能支持更复杂的情感和多标签分类任务。
使用方法
使用ETHOS数据集时,研究者可以根据需求选择二元分类或多标签分类版本。对于二元分类,数据集提供了文本和标签两个字段,标签指示评论是否包含仇恨言论。多标签分类版本则提供了更详细的标签,包括暴力、性别、种族等多个维度。研究者可以通过这些标签训练模型,以实现更精准的仇恨言论检测和分类。
背景与挑战
背景概述
在当今数字化社会中,网络仇恨言论的检测成为一个日益重要的研究领域。ETHOS数据集,由Intelligent Systems Lab于2020年创建,专注于在线仇恨言论的检测。该数据集通过收集YouTube视频和Reddit评论中的数据,旨在为仇恨言论检测模型提供训练和评估的基础。ETHOS数据集的创建不仅填补了该领域的数据空白,还为多标签分类算法的发展提供了宝贵的资源。其核心研究问题是如何准确识别和分类网络上的仇恨言论,这对于维护网络环境的和谐与安全具有重要意义。
当前挑战
ETHOS数据集在构建过程中面临多项挑战。首先,仇恨言论的定义和边界模糊,导致标注过程中的主观性和不一致性。其次,数据集的规模相对较小,限制了其在深度学习模型中的应用效果。此外,仇恨言论的多样性和复杂性使得多标签分类任务变得尤为困难。最后,数据集的构建需要处理来自不同社交平台的文本数据,这些数据可能包含隐晦的仇恨言论,增加了检测的难度。这些挑战不仅影响了数据集的质量,也对后续研究提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,ETHOS数据集的经典使用场景主要集中在仇恨言论检测任务上。该数据集通过提供包含仇恨言论和非仇恨言论的文本样本,帮助研究人员训练和评估仇恨言论检测模型。其二元分类版本适用于简单的仇恨言论存在与否的判断,而多标签版本则进一步细化了仇恨言论的类型和属性,如暴力倾向、针对性别的仇恨言论等,为更复杂的分类任务提供了丰富的数据支持。
解决学术问题
ETHOS数据集在学术研究中解决了仇恨言论自动检测的关键问题。通过提供高质量的标注数据,该数据集使得研究人员能够开发和验证仇恨言论检测算法,从而推动了自然语言处理技术在这一敏感领域的应用。此外,多标签分类的引入,使得研究者可以更细致地分析和理解仇恨言论的多样性和复杂性,为构建更加精准和全面的检测系统提供了理论和实践基础。
衍生相关工作
ETHOS数据集的发布催生了一系列相关研究工作。例如,有研究者基于该数据集开发了新的仇恨言论检测算法,提升了检测的准确性和效率。同时,也有学者利用该数据集进行跨语言仇恨言论检测的研究,探索如何在不同语言环境下应用相同的检测技术。此外,该数据集还激发了对仇恨言论生成机制的研究,为理解仇恨言论的传播和影响提供了新的视角。
以上内容由遇见数据集搜集并总结生成



