five

HateMM

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/hate-alert/hatemm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为HateMM,包含了431个仇恨视频和652个非仇恨视频,它是进行视频多模态仇恨言论检测的关键资源。尽管该数据集规模较小,但针对视频中的多模态仇恨言论检测这一领域,它是唯一的专用数据集。在训练和验证过程中,采用了k折交叉验证的方法。该数据集的规模被归类为小型,具体包含431个仇恨视频和652个非仇恨视频,其任务定位于多模态仇恨视频检测。

This dataset, named HateMM, comprises 431 hateful videos and 652 non-hateful videos, serving as a critical resource for video-based multimodal hate speech detection. Despite its relatively small scale, it is the only dedicated dataset in the field of multimodal hate speech detection for videos. K-fold cross-validation is adopted during the training and validation processes. This dataset is categorized as small-scale, specifically containing 431 hateful videos and 652 non-hateful videos, with its task focused on multimodal hateful video detection.
搜集汇总
数据集介绍
main_image_url
构建方式
在仇恨言论检测领域,视频内容的多模态特性为研究带来了新的挑战。HateMM数据集的构建始于从BitChute平台采集视频数据,该平台因内容审核宽松而成为极端内容的聚集地。研究团队利用已有的仇恨词汇词典作为搜索关键词,初步收集了约8000个视频链接,通过专用下载工具获取了约6000个视频,最终筛选出1083个有效样本。每个视频均由两名独立标注者进行人工标注,依据YouTube的仇恨言论政策,将视频分类为仇恨或非仇恨,并标记出仇恨内容的时间片段及目标群体。标注过程中采用了严格的培训和质量控制流程,包括专家指导、分批标注以及心理支持措施,最终获得了高一致性的标注结果(Cohen's kappa=0.625),数据集总时长约43小时,包含约14.4万帧图像。
特点
HateMM数据集作为多模态仇恨视频检测领域的重要资源,其核心特点体现在多模态数据的丰富性与标注的精细度上。数据集涵盖了文本、音频和视觉三种模态信息,其中文本部分通过自动语音识别生成转录,音频和视觉部分则保留了原始信号。标注不仅提供了二分类标签,还包含了仇恨内容的时间片段(即理性标注)及目标群体信息,这为模型的可解释性和偏差分析提供了基础。数据集的样本分布相对平衡,仇恨类视频占比39.8%,平均时长略长于非仇恨类视频。此外,数据集在转录词汇、音频特征(如过零率、频谱带宽)和视觉对象(如人物、宗教符号)等方面均显示出仇恨与非仇恨内容的显著差异,凸显了多模态信号在仇恨检测中的互补价值。
使用方法
HateMM数据集主要用于开发和评估多模态仇恨视频检测模型。研究者可基于数据集提供的文本转录、音频波形和视频帧序列,构建跨模态的深度学习架构。典型方法包括使用BERT处理文本特征、MFCC或VGG-19提取音频特征,以及利用Vision Transformer或3D-CNN捕获视觉时空信息,随后通过融合层(如神经网络拼接)整合多模态信号进行二分类预测。数据集的标注信息(如时间片段和目标群体)可用于模型可解释性分析或针对性性能评估。在使用时,建议采用分层交叉验证确保评估的稳健性,并注意数据集的伦理限制,仅将其用于学术研究,避免恶意传播或商业滥用。
背景与挑战
背景概述
随着社交媒体视频内容的爆炸式增长,仇恨言论的传播已从文本、图像扩展至视频领域,对网络生态与社会和谐构成严峻挑战。在此背景下,印度理工学院卡拉格普尔分校与微软印度研究院的研究团队于2023年联合发布了HateMM数据集,旨在填补多模态仇恨视频检测领域的数据空白。该数据集从BitChute平台精心采集了约43小时、共计1083个视频,并进行了人工标注,区分仇恨与非仇恨内容,同时标记了关键帧区间与目标社群。HateMM的构建聚焦于解决视频平台内容审核的自动化需求,其发布为利用文本、音频与视觉信号进行协同分析的仇恨视频识别研究奠定了重要基础,推动了多模态机器学习在内容安全领域的应用。
当前挑战
HateMM数据集致力于解决多模态仇恨视频自动检测这一新兴领域问题,其核心挑战在于如何有效融合视频中文本、音频与视觉模态的异构且互补的信息,以提升分类的准确性与鲁棒性。具体而言,构建过程中面临多重困难:首先,数据采集需从BitChute等低审核平台获取真实仇恨内容,涉及敏感且令人不适的素材,对研究伦理与标注者心理健康构成挑战;其次,高质量标注耗费巨大,平均标注时长约为视频本身的两倍,且需确保跨标注者间的一致性(Cohen's κ=0.625);再者,视频转录文本存在噪声(约22%的词汇超出标准词典),且仇恨表达可能仅通过视觉或音频信号呈现,缺乏清晰文本线索,这要求模型必须超越单一模态的局限。
常用场景
经典使用场景
在社交媒体内容审核领域,HateMM数据集为多模态仇恨视频检测提供了关键基准。该数据集通过整合视频、音频和文本三种模态信息,构建了深度学习模型以识别BitChute平台上的仇恨内容。其经典应用场景在于训练和评估多模态融合模型,如BERT、Vision Transformer与MFCC特征的结合,以提升仇恨视频分类的准确性和鲁棒性,为自动化内容审核系统奠定基础。
解决学术问题
HateMM数据集解决了仇恨视频检测中多模态信息融合的学术挑战。传统研究多集中于文本或图像模态,而该数据集首次系统整合视频、音频和文本信号,填补了多模态仇恨内容检测的空白。通过提供大规模标注视频及帧级注释,它支持模型探索各模态间的互补关系,显著提升了仇恨识别的宏观F1分数,推动了计算社会科学与人工智能安全领域的交叉研究。
衍生相关工作
基于HateMM数据集,衍生出多项经典研究工作,推动了多模态仇恨检测的发展。例如,研究者利用该数据集探索了ViViT、Wav2Vec等先进视觉与语音Transformer模型的应用潜力,进一步优化分类性能。同时,该数据集启发了对视频片段级仇恨定位的研究,旨在开发可解释性模型,使审核人员能快速定位仇恨内容的具体帧段,提升审核效率与透明度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作