Harm or Humor Benchmark

Name: Harm or Humor Benchmark
Creator: 穆罕默德·本·扎耶德人工智能大学; 索非亚大学·INSAIT研究所
Published: 2026-03-19 23:34:50
License: 暂无描述

arXiv2026-03-19 更新2026-03-21 收录

下载链接：

https://drive.google.com/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由穆罕默德·本·扎耶德人工智能大学团队构建，是一个多模态、多语言的幽默有害性检测基准，涵盖英语和阿拉伯语的3000条文本、6000张图像及1200段视频。数据通过人工严格标注，区分安全笑话与有害笑话（显性/隐性），重点捕捉文化语境中的隐性伤害。其创新性在于融合低资源语言与跨模态内容，用于评估AI模型对复杂文化推理任务的处理能力，推动安全对齐技术发展。

This dataset is a multimodal, multilingual benchmark for humorous harm detection, developed by a team from Mohamed bin Zayed University of Artificial Intelligence (MBZUAI). It comprises 3,000 text samples, 6,000 images, and 1,200 video clips in both English and Arabic. All data undergoes strict manual annotation to categorize content into safe jokes and harmful jokes (including both explicit and implicit forms), with a particular emphasis on capturing subtle harms rooted in cultural contexts. The novelty of this benchmark lies in its integration of low-resource languages and cross-modal content, which enables the evaluation of AI models' performance on complex cultural reasoning tasks and facilitates the advancement of safety alignment technologies.

提供机构：

穆罕默德·本·扎耶德人工智能大学; 索非亚大学·INSAIT研究所

创建时间：

2026-03-18

搜集汇总

数据集介绍

构建方式

在数字媒体内容安全评估领域，针对有害幽默的识别面临文化语境与隐性表达的挑战。本数据集采用人工精选的构建策略，从公开网络平台系统收集了涵盖文本、图像与视频的多模态内容。构建过程严格遵循预设的标注指南，由七位背景多元的标注者独立完成三层分类：首先区分安全与有害内容，进而将有害样本细分为显性与隐性两类。为确保文化敏感性，阿拉伯语部分纳入了多种方言变体，所有标注均基于目标受众的文化背景进行校准，并通过多数投票机制确定最终标签，从而在主观感知中建立相对客观的标注共识。

使用方法

该数据集适用于多模态内容安全系统的基准测试与模型能力评估。研究者可依据统一的提示模板，对文本大语言模型、视觉语言模型及视频理解模型进行有害内容分类任务的系统测评。评估应涵盖整体准确率与宏F1值，并特别关注模型在隐性有害样本上的召回表现，以衡量其深层推理与文化理解能力。使用中需注意模型在阿拉伯语与英语之间的性能差异分析，以及跨模态迁移学习的可能性探究。数据集的标注体系支持安全对齐策略的研究，可用于开发更具文化适应性的内容审核机制。

背景与挑战

背景概述

在人工智能安全与内容理解领域，有害幽默的识别构成了一个复杂且具有文化敏感性的挑战。由穆罕默德·本·扎耶德人工智能大学（MBZUAI）与INSAIT研究所的研究团队于2026年共同创建的‘Harm or Humor Benchmark’，正是为了应对这一挑战而构建的多模态、多语言基准数据集。该数据集的核心研究问题聚焦于区分安全幽默与有害幽默，并进一步将有害内容细分为显性与隐性两类，旨在探究模型对需要深层文化推理与语境理解的隐性有害幽默的识别能力。通过涵盖英语、阿拉伯语及语言无关的视觉内容，该数据集为评估模型在多语言与文化背景下的安全对齐能力提供了关键工具，对推动人工智能在复杂社会文化语境下的安全性与鲁棒性研究具有重要影响力。

当前挑战

该数据集旨在解决的领域核心挑战在于，当前人工智能系统难以准确识别和理解依赖于微妙文化背景与深层语义推理的隐性有害幽默。具体而言，模型在区分显性有害内容（如直接冒犯性语言）与需要多步推理和文化知识的隐性有害内容之间存在显著性能鸿沟，尤其在阿拉伯语等低资源语言中表现更为明显。在数据集构建过程中，研究者面临多重挑战：首先，高质量、具有明确‘笑话意图’的阿拉伯语内容稀缺，导致其数据规模小于英语部分，为跨语言公平比较带来干扰变量；其次，幽默感知具有高度主观性，尽管制定了严格的标注指南并采用多数投票机制，但有限标注者群体仍可能引入文化或个人偏见；最后，视频模态的数据整合尤为困难，需同时处理视觉、时序、音频及文本信号，而当前开源模型在此长上下文、多模态融合方面能力严重不足，导致评估严重依赖闭源模型，影响了研究的可复现性。

常用场景

经典使用场景

在人工智能安全与内容审核领域，Harm or Humor Benchmark 作为首个多模态、多语言的幽默有害性检测基准，其经典使用场景集中于评估大型语言模型与多模态模型对隐性有害幽默的识别能力。该数据集通过精心标注的文本、图像与视频样本，构建了一个涵盖显性与隐性有害内容的统一评估框架，使得研究者能够系统性地测试模型在跨文化语境下的推理与理解深度。尤其在低资源语言如阿拉伯语的场景中，该数据集填补了现有基准在文化敏感性方面的空白，为模型安全对齐提供了关键的评估工具。

解决学术问题

该数据集主要解决了人工智能领域对隐性有害内容检测的学术挑战。传统毒性检测数据集往往依赖表面词汇模式，难以捕捉依赖文化背景与语义推理的隐性幽默。Harm or Humor Benchmark 通过区分显性与隐性有害类别，迫使模型进行深层次的情境理解，而非简单的模式匹配。其意义在于揭示了当前前沿模型在跨语言、跨模态场景下的推理缺陷，特别是封闭源模型与开源模型在隐性有害内容识别上的显著性能差距，强调了文化根基与推理感知的安全对齐在人工智能发展中的紧迫性。

实际应用

在实际应用层面，该数据集为社交媒体平台的内容审核系统、多语言聊天机器人的安全过滤器以及跨文化人机交互系统的设计提供了关键的评估与优化依据。通过涵盖英语、阿拉伯语及语言无关的视觉内容，它能够帮助开发者识别并缓解模型在低资源语言与特定文化语境下的审核盲点。例如，在审核包含文化隐喻或方言笑话的多模态内容时，基于该数据集训练的模型能更准确地辨别隐性冒犯，从而减少误判与漏判，提升全球性平台的内容安全性与用户体验。

数据集最近研究