HateMM

arXiv2025-09-30 收录

下载链接：

https://github.com/hate-alert/hatemm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为HateMM，包含了431个仇恨视频和652个非仇恨视频，它是进行视频多模态仇恨言论检测的关键资源。尽管该数据集规模较小，但针对视频中的多模态仇恨言论检测这一领域，它是唯一的专用数据集。在训练和验证过程中，采用了k折交叉验证的方法。该数据集的规模被归类为小型，具体包含431个仇恨视频和652个非仇恨视频，其任务定位于多模态仇恨视频检测。

This dataset, named HateMM, comprises 431 hateful videos and 652 non-hateful videos, serving as a critical resource for video-based multimodal hate speech detection. Despite its relatively small scale, it is the only dedicated dataset in the field of multimodal hate speech detection for videos. K-fold cross-validation is adopted during the training and validation processes. This dataset is categorized as small-scale, specifically containing 431 hateful videos and 652 non-hateful videos, with its task focused on multimodal hateful video detection.

搜集汇总

数据集介绍

构建方式

在仇恨言论检测领域，视频内容的多模态特性为研究带来了新的挑战。HateMM数据集的构建始于从BitChute平台采集视频数据，该平台因内容审核宽松而成为极端内容的聚集地。研究团队利用已有的仇恨词汇词典作为搜索关键词，初步收集了约8000个视频链接，通过专用下载工具获取了约6000个视频，最终筛选出1083个有效样本。每个视频均由两名独立标注者进行人工标注，依据YouTube的仇恨言论政策，将视频分类为仇恨或非仇恨，并标记出仇恨内容的时间片段及目标群体。标注过程中采用了严格的培训和质量控制流程，包括专家指导、分批标注以及心理支持措施，最终获得了高一致性的标注结果（Cohen's kappa=0.625），数据集总时长约43小时，包含约14.4万帧图像。

特点

HateMM数据集作为多模态仇恨视频检测领域的重要资源，其核心特点体现在多模态数据的丰富性与标注的精细度上。数据集涵盖了文本、音频和视觉三种模态信息，其中文本部分通过自动语音识别生成转录，音频和视觉部分则保留了原始信号。标注不仅提供了二分类标签，还包含了仇恨内容的时间片段（即理性标注）及目标群体信息，这为模型的可解释性和偏差分析提供了基础。数据集的样本分布相对平衡，仇恨类视频占比39.8%，平均时长略长于非仇恨类视频。此外，数据集在转录词汇、音频特征（如过零率、频谱带宽）和视觉对象（如人物、宗教符号）等方面均显示出仇恨与非仇恨内容的显著差异，凸显了多模态信号在仇恨检测中的互补价值。

使用方法

HateMM数据集主要用于开发和评估多模态仇恨视频检测模型。研究者可基于数据集提供的文本转录、音频波形和视频帧序列，构建跨模态的深度学习架构。典型方法包括使用BERT处理文本特征、MFCC或VGG-19提取音频特征，以及利用Vision Transformer或3D-CNN捕获视觉时空信息，随后通过融合层（如神经网络拼接）整合多模态信号进行二分类预测。数据集的标注信息（如时间片段和目标群体）可用于模型可解释性分析或针对性性能评估。在使用时，建议采用分层交叉验证确保评估的稳健性，并注意数据集的伦理限制，仅将其用于学术研究，避免恶意传播或商业滥用。

背景与挑战

背景概述

随着社交媒体视频内容的爆炸式增长，仇恨言论的传播已从文本、图像扩展至视频领域，对网络生态与社会和谐构成严峻挑战。在此背景下，印度理工学院卡拉格普尔分校与微软印度研究院的研究团队于2023年联合发布了HateMM数据集，旨在填补多模态仇恨视频检测领域的数据空白。该数据集从BitChute平台精心采集了约43小时、共计1083个视频，并进行了人工标注，区分仇恨与非仇恨内容，同时标记了关键帧区间与目标社群。HateMM的构建聚焦于解决视频平台内容审核的自动化需求，其发布为利用文本、音频与视觉信号进行协同分析的仇恨视频识别研究奠定了重要基础，推动了多模态机器学习在内容安全领域的应用。

当前挑战

HateMM数据集致力于解决多模态仇恨视频自动检测这一新兴领域问题，其核心挑战在于如何有效融合视频中文本、音频与视觉模态的异构且互补的信息，以提升分类的准确性与鲁棒性。具体而言，构建过程中面临多重困难：首先，数据采集需从BitChute等低审核平台获取真实仇恨内容，涉及敏感且令人不适的素材，对研究伦理与标注者心理健康构成挑战；其次，高质量标注耗费巨大，平均标注时长约为视频本身的两倍，且需确保跨标注者间的一致性（Cohen's κ=0.625）；再者，视频转录文本存在噪声（约22%的词汇超出标准词典），且仇恨表达可能仅通过视觉或音频信号呈现，缺乏清晰文本线索，这要求模型必须超越单一模态的局限。

常用场景

经典使用场景

在社交媒体内容审核领域，HateMM数据集为多模态仇恨视频检测提供了关键基准。该数据集通过整合视频、音频和文本三种模态信息，构建了深度学习模型以识别BitChute平台上的仇恨内容。其经典应用场景在于训练和评估多模态融合模型，如BERT、Vision Transformer与MFCC特征的结合，以提升仇恨视频分类的准确性和鲁棒性，为自动化内容审核系统奠定基础。

解决学术问题

HateMM数据集解决了仇恨视频检测中多模态信息融合的学术挑战。传统研究多集中于文本或图像模态，而该数据集首次系统整合视频、音频和文本信号，填补了多模态仇恨内容检测的空白。通过提供大规模标注视频及帧级注释，它支持模型探索各模态间的互补关系，显著提升了仇恨识别的宏观F1分数，推动了计算社会科学与人工智能安全领域的交叉研究。

衍生相关工作

基于HateMM数据集，衍生出多项经典研究工作，推动了多模态仇恨检测的发展。例如，研究者利用该数据集探索了ViViT、Wav2Vec等先进视觉与语音Transformer模型的应用潜力，进一步优化分类性能。同时，该数据集启发了对视频片段级仇恨定位的研究，旨在开发可解释性模型，使审核人员能快速定位仇恨内容的具体帧段，提升审核效率与透明度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集