ETHOS

Name: ETHOS
Creator: 塞萨洛尼基亚里士多德大学
Published: 2021-07-06 15:25:14
License: 暂无描述

arXiv2021-07-06 更新2024-06-21 收录

下载链接：

https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset.git

下载链接

链接失效反馈

官方服务：

资源简介：

ETHOS数据集是由塞萨洛尼基亚里士多德大学的研究团队创建的，用于在线仇恨言论检测。该数据集包含1431条来自YouTube和Reddit的评论，通过Figure-Eight众包平台进行验证。数据集创建过程中采用了主动抽样方法来平衡数据，确保在审查材料中出现仇恨言论。ETHOS数据集旨在解决社交媒体平台上的仇恨言论问题，通过提供一个可靠的检测系统，对数字互联社会产生重要影响。

The ETHOS dataset was developed by a research team at Aristotle University of Thessaloniki for online hate speech detection. It contains 1,431 comments sourced from YouTube and Reddit, which were validated via the Figure-Eight crowdsourcing platform. Active sampling was adopted during the dataset construction to balance the data and ensure the presence of hate speech in the reviewed materials. The ETHOS dataset aims to address the issue of hate speech on social media platforms, and by providing a reliable detection system, it exerts a significant impact on digitally interconnected societies.

提供机构：

塞萨洛尼基亚里士多德大学

创建时间：

2020-06-11

搜集汇总

数据集介绍

构建方式

在仇恨言论检测领域，构建高质量数据集面临冗余与类别失衡的挑战。ETHOS数据集通过三阶段主动学习协议精心构建：首先从YouTube和Reddit平台采集初始评论，利用预训练机器学习模型进行弱标签预测；随后采用混合查询策略，结合不确定性采样与最大相关性原则，筛选信息量丰富的样本进行人工标注；最后通过Figure-Eight众包平台进行多轮验证，由经验丰富的标注者对仇恨言论的存在性、暴力煽动倾向、针对性及具体类别进行精细标注，确保标注一致性与数据平衡性。

使用方法

该数据集适用于自然语言处理与机器学习领域的多项任务。研究者可将其用于二进制或多标签仇恨言论分类模型的训练与评估，通过传统机器学习算法或深度神经网络架构进行基准测试。数据集支持文本向量化技术如TF-IDF及预训练词嵌入模型的应用，并可结合主动学习框架进行模型迭代优化。在多标签场景下，可采用问题转换或算法适应方法探索标签间的依赖关系。此外，ETHOS的平衡特性使其成为研究类别不平衡问题及模型可解释性的理想资源，亦可通过跨数据集迁移学习验证其泛化能力。

背景与挑战

背景概述

随着社交媒体平台的普及，网络仇恨言论问题日益凸显，对数字社会的和谐与安全构成严峻挑战。在此背景下，塞萨洛尼基亚里士多德大学的研究团队于2021年推出了ETHOS数据集，旨在为仇恨言论检测领域提供高质量的数据资源。该数据集聚焦于从YouTube和Reddit平台采集的评论，通过精心设计的主动学习与众包标注协议，构建了包含二元与多标签分类的文本语料库。其核心研究问题在于解决现有仇恨言论数据集中普遍存在的类别不平衡、标注冗余及语义重叠等缺陷，从而提升机器学习模型在真实场景中的泛化能力与检测精度。ETHOS的发布为自然语言处理与社交媒体内容治理研究提供了重要基准，推动了仇恨言论自动检测技术的发展与应用。

当前挑战

ETHOS数据集致力于解决仇恨言论检测领域的核心挑战，即如何在复杂的网络语境中准确识别具有多维度属性的攻击性内容。具体而言，仇恨言论往往涉及暴力煽动、特定目标指向以及基于性别、种族等多重类别的语义重叠，这要求模型具备细粒度的分类与理解能力。在数据集构建过程中，研究团队面临多重挑战：首先，从社交媒体平台采集的数据常伴随噪声与稀疏性，需通过主动学习策略筛选信息量丰富的样本，以平衡类别分布并减少冗余；其次，众包标注环节需克服标注者主观差异与语义歧义，确保多标签标注的一致性与可靠性。此外，数据集的规模受限与多语言扩展的不足，也为其在更广泛场景中的应用带来了局限性。

常用场景

经典使用场景

在社交媒体内容审核领域，ETHOS数据集常被用于训练和评估仇恨言论检测模型。该数据集基于YouTube和Reddit平台的评论构建，通过众包平台进行标注，确保了数据的多样性和平衡性。其经典应用场景包括开发自动化内容过滤系统，帮助平台实时识别并处理涉及种族、性别、宗教等敏感议题的仇恨言论，从而维护网络环境的健康与安全。

解决学术问题

ETHOS数据集有效解决了仇恨言论检测中数据不平衡和标注模糊的学术难题。通过主动学习策略和精细的多标签标注协议，该数据集提供了平衡的类别分布和清晰的语义边界，支持从二元分类到多标签分类的深入研究。其意义在于推动了自然语言处理领域对仇恨言论多维特性的理解，为构建更精准、可解释的检测模型奠定了数据基础，促进了算法公平性与伦理考量。

实际应用

在实际应用中，ETHOS数据集被整合到社交媒体平台的内容管理系统中，辅助人工审核员高效识别仇恨言论。例如，系统可基于数据集的多元标签（如暴力倾向、目标群体、仇恨类别）提供详细的内容分析报告，帮助审核员快速判断评论的严重性与违规类型。此外，该数据集还用于开发用户端举报工具和教育性干预机制，提升公众对网络仇恨的认知，推动构建包容性在线社区。

数据集最近研究