HATEMM
收藏arXiv2023-05-06 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.7799469
下载链接
链接失效反馈官方服务:
资源简介:
HATEMM数据集是由印度理工学院(IIT)卡拉格普尔的研究团队创建,专注于多模态仇恨视频分类。该数据集包含约43小时的视频,总计约144,000帧,来源于BitChute平台,并经过人工标注分为仇恨或非仇恨内容。数据集创建过程中,研究团队利用仇恨词汇表中的关键词搜索相关视频,并进行了详细的标注工作,包括标记视频中的仇恨片段和目标群体。HATEMM数据集的应用领域主要集中在视频托管平台的内容安全管理,旨在通过自动化技术有效识别和移除仇恨内容,维护平台环境的健康与安全。
The HATEMM dataset was created by a research team from the Indian Institute of Technology (IIT) Kharagpur, focusing on multimodal hate video classification. It contains approximately 43 hours of videos, totaling around 144,000 frames, sourced from the BitChute platform, and has been manually annotated as either hate content or non-hate content. During the dataset construction phase, the research team utilized keywords from hate lexicons to search for relevant videos, and carried out detailed annotation work including marking hate segments and targeted groups within the videos. The application scenarios of the HATEMM dataset mainly center on content security management for video hosting platforms, with the goal of effectively identifying and removing hate content via automated technologies to maintain a healthy and safe platform environment.
提供机构:
印度理工学院(IIT),卡拉格普尔
创建时间:
2023-05-06
搜集汇总
数据集介绍

构建方式
在仇恨内容检测研究领域,视频多模态数据的稀缺性构成了显著挑战。HATEMM数据集的构建始于从BitChute平台系统性地采集原始视频,该平台因内容审核宽松而成为研究极端内容的适宜来源。研究团队利用既有仇恨词典中的歧视性关键词作为搜索词,初步获取约8000个视频链接,经去重与有效性筛选后,最终下载约6000个候选视频。标注过程采用严谨的双盲标注协议,由两名专家与四名受训标注员依据基于YouTube仇恨言论政策制定的标准化准则,对每个视频进行二元分类(仇恨/非仇恨),并同步标注仇恨片段的时间跨度和目标群体。标注者平均耗时约为视频长度的两倍,最终通过专家仲裁解决标注分歧,获得包含1083个视频、总时长约43小时的高质量标注数据集。
使用方法
该数据集主要服务于多模态机器学习模型在仇恨视频自动检测任务上的训练与评估。研究者可分别提取视频的视觉帧序列、音频特征(如MFCC)以及转录文本,并利用如Vision Transformer、BERT等预训练模型进行特征编码。通过设计多模态融合架构(如特征拼接、注意力机制等),可联合利用不同模态的互补信息构建分类器。数据集中提供的帧跨度标注可用于开发定位仇恨片段的模型,或作为模型可解释性分析的验证依据。标准的使用流程包括按5折分层交叉验证划分训练、验证与测试集,以评估模型在准确率、宏F1分数等指标上的性能。同时,数据集支持针对不同视频长度、不同目标社群的分组性能分析,以探究模型的行为特性与潜在偏差。
背景与挑战
背景概述
随着社交媒体视频内容的爆炸式增长,仇恨言论的传播已从文本、图像延伸至视频领域,对网络环境治理构成了严峻挑战。在此背景下,印度理工学院卡拉格普尔分校与微软印度研究院的研究团队于2023年共同创建了HATEMM数据集,旨在填补多模态仇恨视频检测领域的数据空白。该数据集从BitChute平台精心采集了约43小时、共计1083个视频,并进行了人工标注,区分仇恨与非仇恨内容,同时标注了关键帧区间以提供可解释性依据。HATEMM的发布标志着仇恨内容检测研究从单一文本模态向融合视觉、音频与文本的多模态分析迈出了关键一步,为开发高效的自动化视频内容审核算法奠定了重要的数据基础,对维护网络空间的健康与安全具有深远影响。
当前挑战
HATEMM数据集致力于解决多模态仇恨视频自动检测这一核心领域问题,其面临的首要挑战在于如何有效融合视频中的视觉、音频和文本信号,以准确识别复杂且隐含的仇恨表达,例如通过画面符号、语调变化或字幕组合传递的歧视性内容。在数据集构建过程中,研究团队遭遇了多重困难:从BitChute平台采集原始视频时,需处理链接失效与文件损坏问题;人工标注过程尤为艰巨,因接触极端有害内容,标注者面临心理创伤风险,为此需制定严格的标注流程与心理健康保障措施;此外,视频转录文本存在较高噪声,包含大量非标准词汇,为后续模型训练增添了复杂性。这些挑战共同凸显了在多模态环境下进行细粒度、人性化内容审核的固有难度。
常用场景
经典使用场景
在多媒体内容审核领域,HATEMM数据集为仇恨视频检测提供了关键的多模态基准。该数据集通过整合视频、音频和文本三种模态,支持研究者开发融合视觉、听觉和语义信息的深度学习模型,以精准识别视频中的仇恨内容。其经典应用场景包括构建端到端的自动化视频审核系统,帮助平台高效筛查BitChute等视频托管平台上的有害内容,从而维护网络环境的健康与安全。
解决学术问题
HATEMM数据集有效解决了仇恨内容检测中多模态融合的学术挑战。传统研究多集中于文本或图像模态,而该数据集首次系统性地整合了视频帧、音频信号和转录文本,为探索跨模态协同机制提供了实验基础。它推动了多模态深度学习在仇恨检测领域的应用,显著提升了模型在复杂场景下的分类性能,例如通过融合BERT、ViT和MFCC特征,将宏观F1分数提升至0.790,为后续研究奠定了数据与方法论基础。
实际应用
在实际应用中,HATEMM数据集被广泛用于视频平台的自动化内容审核系统。基于该数据集训练的模型能够实时分析用户上传的视频,通过检测视觉符号、音频中的攻击性语调以及文本中的仇恨言论,快速标记潜在有害内容。这减轻了人工审核的心理负担与操作成本,尤其适用于缺乏严格审核机制的小型平台,助力其遵守相关法规,避免因内容违规导致的经济损失与法律风险。
数据集最近研究
最新研究方向
在仇恨内容检测领域,随着视频内容在社交媒体中的爆炸性增长,HATEMM数据集的出现填补了多模态仇恨视频识别的研究空白。该数据集通过整合文本、音频和视觉三种模态,推动了基于深度学习的融合模型发展,如BERT、Vision Transformer和MFCC特征的联合应用,显著提升了分类性能。前沿研究聚焦于利用更先进的视觉与语音Transformer架构(如ViViT和Wav2Vec)以优化模型泛化能力,同时探索可解释性方法,通过标注帧跨度来定位视频中的仇恨片段,从而辅助内容审核。这一方向不仅响应了平台对高效自动化审核的需求,也为应对网络仇恨言论的治理提供了技术支撑,具有重要的社会意义。
相关研究论文
- 1HateMM: A Multi-Modal Dataset for Hate Video Classification印度理工学院(IIT),卡拉格普尔 · 2023年
以上内容由遇见数据集搜集并总结生成



