HUMMUS Dataset of Humorous Multimodal Metaphor Use
收藏arXiv2025-04-04 更新2025-04-08 收录
下载链接:
https://github.com/xiaoyuisrain/humorous-multimodal-metaphor-use
下载链接
链接失效反馈官方服务:
资源简介:
HUMMUS数据集是由ILLC和阿姆斯特丹大学计算机科学系合作创建的,包含1000个图像-标题对的专家注释,这些图像-标题对是从《纽约客》标题竞赛语料库中抽取的。该数据集为幽默多模态隐喻的使用提供了注释,包括图像和文本部分与隐喻使用相关的内容,以及隐喻使用如何为图像-标题对带来幽默效果的简要解释。数据集旨在帮助测试大型多模态语言模型对幽默多模态隐喻使用的检测和理解能力。
The HUMMUS Dataset was collaboratively developed by the Institute for Logic, Language and Computation (ILLC) and the Department of Computer Science of the University of Amsterdam. It contains 1,000 expert-annotated image-caption pairs sampled from the New Yorker Caption Contest Corpus. This dataset provides annotations for humorous multimodal metaphor use, including content related to metaphorical usage in both the image and text modalities, as well as brief explanations of how such metaphorical application contributes to the humorous effect of the image-caption pairs. The dataset is designed to facilitate testing of large multimodal language models' capabilities to detect and comprehend humorous multimodal metaphor usage.
提供机构:
ILLC, University of Amsterdam, the Netherlands; Computer Science Department, Stanford University, US
创建时间:
2025-04-04
搜集汇总
数据集介绍

构建方式
HUMMUS数据集的构建基于《纽约客》标题竞赛语料库中的图像-标题对,通过随机采样251幅漫画,共计1000对图像-标题。数据标注由一位擅长隐喻研究的语言学家完成,标注过程分为两个阶段:幽默隐喻识别和详细隐喻标注。在识别阶段,标注者采用不一致-解决方法来理解幽默,并确定是否涉及隐喻使用。在详细标注阶段,标注者进一步标注涉及的概念隐喻、相关图像区域和文本片段,并解释隐喻如何贡献于幽默效果。
特点
HUMMUS数据集包含1000对图像-标题,其中558对涉及幽默多模态隐喻使用。数据集标注了390多种概念隐喻,最常见的是ANIMALS ARE HUMANS(23%)和HUMANS ARE ANIMALS(8%)。此外,51%的样本涉及拟人化隐喻。数据集还标注了其他修辞手法(如双关、夸张、讽刺)的使用情况,65%的隐喻样本与其他修辞手法共同出现。数据集的独特之处在于其多模态性质,隐喻的理解需要同时结合图像和文本信息。
使用方法
HUMMUS数据集可用于评估多模态大语言模型(MLLMs)在幽默多模态隐喻处理中的能力。数据集设计了六项任务:分类(判断是否涉及幽默隐喻)、命名(识别概念隐喻)、图像边界框标注(定位相关图像区域)、图像标签(标记相关图像对象)、标题高亮(标记相关文本片段)和解释(说明隐喻如何贡献于幽默)。研究人员可以使用这些任务测试模型在整合视觉和文本信息、识别隐喻以及理解幽默方面的表现。数据集还可用于研究隐喻与其他修辞手法的交互作用。
背景与挑战
背景概述
HUMMUS数据集是由阿姆斯特丹大学和斯坦福大学的研究团队于2025年创建的一个专注于幽默多模态隐喻使用的数据集。该数据集基于《纽约客》标题竞赛语料库,包含1000个图像-标题对,由专业语言学家进行详细标注,涵盖了幽默多模态隐喻的识别、概念隐喻的标注、图像与文本的相关部分标记以及幽默效果的解析。该数据集的创建受到了概念隐喻理论(CMT)和幽默的冲突理论的启发,旨在填补多模态隐喻在幽默理解领域的研究空白。HUMMUS数据集的发布为自然语言处理领域,尤其是多模态大语言模型(MLLMs)在理解和处理幽默多模态隐喻方面的能力提供了重要的评估基准。
当前挑战
HUMMUS数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数据集旨在解决多模态隐喻在幽默理解中的复杂性问题,尤其是如何整合视觉和文本信息以识别和理解幽默隐喻。这一问题的挑战在于隐喻的多模态特性使得传统的单模态处理方法难以奏效。在构建过程中,标注工作面临的主要挑战包括如何准确识别和标注多模态隐喻,尤其是在图像和标题之间存在复杂交互的情况下。此外,标注过程中还需处理隐喻的双向性和多义性,以及如何确保标注的一致性和准确性。这些挑战使得数据集的构建不仅需要深厚的语言学知识,还需要对多模态数据的深入理解。
常用场景
经典使用场景
HUMMUS数据集专注于幽默多模态隐喻的研究,其经典使用场景包括测试多模态大语言模型(MLLMs)在识别和理解幽默多模态隐喻方面的能力。通过提供1000个来自《纽约客》标题竞赛的图像-标题对,数据集为研究者提供了一个标准化的评估平台,以验证模型在视觉和文本信息整合方面的表现。
实际应用
在实际应用中,HUMMUS数据集可用于开发更智能的多模态交互系统,如自动生成幽默内容或改进社交媒体中的内容推荐算法。此外,数据集还可用于教育领域,帮助学生理解隐喻和幽默的复杂关系,或用于广告行业,优化创意内容的生成和评估。
衍生相关工作
HUMMUS数据集衍生了多项经典工作,包括对多模态隐喻自动检测和理解的研究。例如,基于该数据集的实验揭示了当前MLLMs在处理幽默多模态隐喻时的局限性,尤其是视觉和文本信息整合的不足。这些发现推动了后续研究,如改进模型的多模态推理能力或开发新的评估框架。
以上内容由遇见数据集搜集并总结生成



