five

iamollas/ethos

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/iamollas/ethos
下载链接
链接失效反馈
官方服务:
资源简介:
Ethos数据集是一个用于在线仇恨言论检测的数据集,包含两个版本:二进制版本和多标签版本。二进制版本包含998条评论,标记为是否包含仇恨言论;多标签版本包含433条评论,标记了仇恨言论的具体类别,如暴力、性别、种族等。数据集的文本为英文,来源于YouTube和Reddit的评论。数据集由Intelligent Systems Lab创建,并使用了AGPL-3.0许可证。

Ethos数据集是一个用于在线仇恨言论检测的数据集,包含两个版本:二进制版本和多标签版本。二进制版本包含998条评论,标记为是否包含仇恨言论;多标签版本包含433条评论,标记了仇恨言论的具体类别,如暴力、性别、种族等。数据集的文本为英文,来源于YouTube和Reddit的评论。数据集由Intelligent Systems Lab创建,并使用了AGPL-3.0许可证。
提供机构:
iamollas
原始信息汇总

数据集概述

名称: onlinE haTe speecH detectiOn dataSet (ETHOS)

语言: 英语

许可证: AGPL-3.0

多语言性: 单语

大小: 小于1000条记录

来源: 原始数据

任务类别: 文本分类

任务ID: 多标签分类, 情感分类

标签: Hate Speech Detection

数据集结构

配置名称

  • binary: 包含998条评论,标签为no_hate_speechhate_speech
  • multilabel: 包含433条评论,包含8个标签:violence, directed_vs_generalized, gender, race, national_origin, disability, religion, sexual_orientation

数据字段

  • binary:

    • text: 字符串类型,评论文本。
    • label: 分类标签,值为no_hate_speechhate_speech
  • multilabel:

    • text: 字符串类型,评论文本。
    • violence: 分类标签,值为not_violentviolent
    • directed_vs_generalized: 分类标签,值为generalizeddirected
    • gender, race, national_origin, disability, religion, sexual_orientation: 分类标签,值为falsetrue

数据分割

  • binary: 训练集包含998条记录,数据大小为124823字节。
  • multilabel: 训练集包含433条记录,数据大小为79112字节。

数据集创建

注释过程

  • 创建者: 众包和专家生成
  • 语言创建者: 发现和其他

来源数据

  • 初始数据收集: 来自YouTube视频和Reddit评论,可能包含仇恨言论内容。
  • 语言生产者: Reddit和YouTube用户

注释

  • 注释者: Ioannis Mollas,通过Figure8平台验证

个人和敏感信息

  • 信息: 数据集中未包含个人和敏感信息

使用数据注意事项

  • 社会影响: 有助于自动化仇恨言论检测工具的发展,预防社会问题。
  • 偏见讨论: 数据集尝试对类别和标签保持中立。
  • 已知限制: 数据集相对较小,建议与其他更大的数据集结合使用。
搜集汇总
数据集介绍
main_image_url
构建方式
ETHOS数据集的构建基于从YouTube视频和Reddit评论中收集的在线评论,这些平台因其可能吸引仇恨言论的内容而被选择。数据集的构建过程中,首先通过众包和专家生成的方式进行标注,确保了数据的高质量。随后,数据被分为二元分类和多标签分类两个版本,分别用于检测仇恨言论的存在与否以及仇恨言论的具体类别。
特点
ETHOS数据集的显著特点在于其多层次的分类结构。二元分类版本主要区分评论是否包含仇恨言论,而多标签分类版本则进一步细分为暴力、性别、种族等多个子类别。这种设计使得数据集不仅适用于基本的仇恨言论检测,还能支持更复杂的情感和多标签分类任务。
使用方法
使用ETHOS数据集时,研究者可以根据需求选择二元分类或多标签分类版本。对于二元分类,数据集提供了文本和标签两个字段,标签指示评论是否包含仇恨言论。多标签分类版本则提供了更详细的标签,包括暴力、性别、种族等多个维度。研究者可以通过这些标签训练模型,以实现更精准的仇恨言论检测和分类。
背景与挑战
背景概述
在当今数字化社会中,网络仇恨言论的检测成为一个日益重要的研究领域。ETHOS数据集,由Intelligent Systems Lab于2020年创建,专注于在线仇恨言论的检测。该数据集通过收集YouTube视频和Reddit评论中的数据,旨在为仇恨言论检测模型提供训练和评估的基础。ETHOS数据集的创建不仅填补了该领域的数据空白,还为多标签分类算法的发展提供了宝贵的资源。其核心研究问题是如何准确识别和分类网络上的仇恨言论,这对于维护网络环境的和谐与安全具有重要意义。
当前挑战
ETHOS数据集在构建过程中面临多项挑战。首先,仇恨言论的定义和边界模糊,导致标注过程中的主观性和不一致性。其次,数据集的规模相对较小,限制了其在深度学习模型中的应用效果。此外,仇恨言论的多样性和复杂性使得多标签分类任务变得尤为困难。最后,数据集的构建需要处理来自不同社交平台的文本数据,这些数据可能包含隐晦的仇恨言论,增加了检测的难度。这些挑战不仅影响了数据集的质量,也对后续研究提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,ETHOS数据集的经典使用场景主要集中在仇恨言论检测任务上。该数据集通过提供包含仇恨言论和非仇恨言论的文本样本,帮助研究人员训练和评估仇恨言论检测模型。其二元分类版本适用于简单的仇恨言论存在与否的判断,而多标签版本则进一步细化了仇恨言论的类型和属性,如暴力倾向、针对性别的仇恨言论等,为更复杂的分类任务提供了丰富的数据支持。
解决学术问题
ETHOS数据集在学术研究中解决了仇恨言论自动检测的关键问题。通过提供高质量的标注数据,该数据集使得研究人员能够开发和验证仇恨言论检测算法,从而推动了自然语言处理技术在这一敏感领域的应用。此外,多标签分类的引入,使得研究者可以更细致地分析和理解仇恨言论的多样性和复杂性,为构建更加精准和全面的检测系统提供了理论和实践基础。
衍生相关工作
ETHOS数据集的发布催生了一系列相关研究工作。例如,有研究者基于该数据集开发了新的仇恨言论检测算法,提升了检测的准确性和效率。同时,也有学者利用该数据集进行跨语言仇恨言论检测的研究,探索如何在不同语言环境下应用相同的检测技术。此外,该数据集还激发了对仇恨言论生成机制的研究,为理解仇恨言论的传播和影响提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作