HateClipSeg
收藏arXiv2025-08-03 更新2025-08-06 收录
下载链接:
https://github.com/Social-AI-Studio/HateClipSeg.git
下载链接
链接失效反馈官方服务:
资源简介:
HateClipSeg 是一个大型多模态数据集,包含视频级和片段级标注,超过 11,714 个片段被标注为正常或五个攻击性类别:仇恨、侮辱、性、暴力、自残,并附有明确的受害者标签。我们的三阶段标注过程产生了高标注者间一致性(Krippendorff 的 alpha =0.817)。我们提出了三个任务来评估性能:(1)修剪后的仇恨视频分类,(2)时间仇恨视频定位,(3)在线仇恨视频分类。结果表明,当前模型在修剪后的视频分类中表现良好,但在时间定位和在线分类中表现较差,这突出了对更复杂的多模态和时间感知方法的需求。HateClipSeg 数据集在 https://github.com/Social-AI-Studio/HateClipSeg.git 公开可用。
HateClipSeg is a large-scale multimodal dataset with both video-level and clip-level annotations. Over 11,714 clips are annotated as either normal or belonging to five offensive categories: hate, insult, sexually explicit, violent, and self-harm, with explicit victim labels attached. Our three-stage annotation pipeline yields high inter-annotator agreement (Krippendorff’s α = 0.817). We propose three tasks for performance evaluation: (1) Pruned Hate Video Classification, (2) Temporal Hate Video Localization, and (3) Online Hate Video Classification. Experimental results show that current models perform well on pruned video classification, but poorly on temporal localization and online classification, highlighting the need for more sophisticated multimodal and temporal-aware methods. The HateClipSeg dataset is publicly available at https://github.com/Social-AI-Studio/HateClipSeg.git.
提供机构:
新加坡科技设计大学
创建时间:
2025-08-03
搜集汇总
数据集介绍
构建方式
HateClipSeg数据集的构建采用了严谨的三阶段标注流程,确保标注质量的高可靠性。研究团队首先基于Hatebase和HateXplain等权威资源构建了包含100多个仇恨词汇的词典,通过YouTube和BitChute平台采集了4,745个初始视频样本。采用预训练的LLaMA-3.2-11B模型进行仇恨内容筛选后,利用Whisper语音识别和ViT帧嵌入技术将视频分割为11,714个语义连贯的片段。标注过程创新性地采用独立标注-配对讨论-二次标注的迭代机制,视频级标注的Krippendorff's alpha系数达到0.817,显著提升了多模态内容标注的一致性。
特点
该数据集的核心价值体现在其细粒度的多层次标注体系。除了常规的视频级二元分类(正常/攻击性),还包含五大攻击性子类(仇恨性、侮辱性、性相关、暴力、自残)的精细标注,以及21类受害者群体的目标识别。数据集包含435个视频和11,714个片段,平均时长8.84秒,攻击性片段占比44.6%,呈现出仇恨内容在长视频中的稀疏分布特性。特别值得注意的是,87%的视频同时包含攻击性和正常片段,这种真实场景下的混合分布为模型泛化能力提供了严格测试环境。多模态特性体现在每个片段都具备视觉、文本和音频的同步特征,支持跨模态关联分析。
使用方法
研究者设计了三种递进式的基准任务来挖掘数据集价值。在修剪视频分类任务中,模型需对预分割片段进行二元分类,适合作为基础性能基准。时序定位任务要求模型在未修剪视频中准确识别攻击片段的起止时间,模拟实际内容审核场景。在线分类任务则测试模型对流媒体数据的实时处理能力,反映直播等动态场景的检测需求。实验表明当前最优模型在修剪分类任务中达到69.48 Macro-F1,但在时序定位任务(tIoU=0.7时F1仅29.42)和在线分类(62.75 Macro-F1)中表现显著下降,揭示了多模态时序建模的研究空白。数据集配套提供ViT视觉特征、BERT文本特征和Wav2Vec音频特征的三模态基准,支持端到端或特征级融合研究。
背景与挑战
背景概述
HateClipSeg是由新加坡科技设计大学的Han Wang、Zhuoran Wang和Roy Ka-Wei Lee于2025年提出的一个大规模多模态数据集,专门用于细粒度的仇恨视频检测。该数据集包含11,714个片段级别的标注,涵盖了正常内容以及五种攻击性类别(仇恨、侮辱、性、暴力、自残),并明确标注了目标受害者群体。HateClipSeg通过三阶段标注流程确保了高标注者间一致性(Krippendorff's alpha = 0.817),旨在解决现有仇恨视频数据集中粗粒度标注和缺乏片段级注释的问题。该数据集的推出为多模态仇恨语音检测研究提供了重要资源,推动了该领域向更精细、更上下文感知的方向发展。
当前挑战
HateClipSeg面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,仇恨视频检测的复杂性源于多模态内容的交互(如文本、视觉和音频的协同作用),使得仇恨信息可能被掩盖或放大,增加了检测难度。此外,仇恨内容的上下文依赖性高,短片段中可能缺乏足够的上下文信息来准确判断其攻击性。在构建过程中,挑战包括确保片段级标注的一致性和质量,尤其是在面对主观边界判定和多模态内容模糊性时。此外,处理敏感内容对标注者的心理影响也是一个重要考量,需要采取适当的保护措施和支持机制。
常用场景
经典使用场景
HateClipSeg数据集在多媒体内容分析领域具有重要应用价值,尤其在仇恨言论检测方面表现突出。该数据集通过精细的片段级标注,为研究者提供了丰富的多模态信息,包括视觉、文本和音频特征。在经典使用场景中,研究者可以利用HateClipSeg进行仇恨言论的细粒度分类,识别视频中不同类型的攻击性内容,如仇恨性、侮辱性、性相关、暴力和自残等。这种细粒度的分析能力使得HateClipSeg成为仇恨言论检测领域的重要基准数据集。
解决学术问题
HateClipSeg数据集解决了仇恨言论检测领域中的多个关键学术问题。首先,它填补了现有数据集中缺乏细粒度标注的空白,提供了片段级的精确标注,使得研究者能够更准确地定位和分析仇恨言论。其次,数据集通过多模态信息的整合,解决了单一模态信息不足以全面识别仇恨言论的问题。此外,HateClipSeg的高质量标注和严格的标注流程确保了数据的可靠性和一致性,为后续研究提供了坚实的基础。这些特性使得HateClipSeg在推动仇恨言论检测算法的进步方面具有重要意义。
衍生相关工作
HateClipSeg数据集的发布推动了多模态仇恨言论检测领域的多项经典工作。例如,基于该数据集的研究提出了多种先进的深度学习模型,如结合视觉和文本信息的跨模态融合模型,以及针对实时检测的在线分类算法。此外,HateClipSeg还被用于评估和改进现有的仇恨言论检测方法,如HateMM和MultiHateClip等模型的性能。这些衍生工作不仅扩展了数据集的应用范围,也为仇恨言论检测技术的进一步发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



