HumorDB
收藏arXiv2024-06-19 更新2024-06-24 收录
下载链接:
https://anonymous.4open.science/r/HumorDB_-51AF/
下载链接
链接失效反馈官方服务:
资源简介:
HumorDB是由伊利诺伊大学厄巴纳-香槟分校创建的一个专注于图形幽默理解的图像数据集。该数据集包含精心挑选的图像对,每对图像具有对比鲜明的幽默评分,强调触发幽默的微妙视觉线索,并减少潜在偏见。数据集大小为3545对图像,内容来源于在线图像库、漫画、社交媒体平台等,通过人工评估和机器学习技术创建。HumorDB旨在通过二元分类、范围回归和成对比较任务,捕捉幽默感知的主观性,并推动场景理解技术的发展。
HumorDB is an image dataset focused on graphical humor understanding, developed by the University of Illinois Urbana-Champaign. Comprising 3545 carefully curated image pairs, each pair features widely divergent humor ratings, highlighting subtle visual cues that trigger humor while mitigating potential biases. The dataset’s content is sourced from online image repositories, comics, social media platforms and other channels, and was constructed using human evaluation and machine learning techniques. HumorDB aims to capture the subjectivity of humor perception through binary classification, range regression, and pairwise comparison tasks, and advance the development of scene understanding technologies.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-06-19
搜集汇总
数据集介绍

构建方式
HumorDB数据集的构建过程经过精心设计,旨在捕捉视觉幽默的细微差异。研究者从多个来源收集了多样化的图像,包括在线图像库、漫画、社交媒体平台以及AI生成的图像(如DALL-E和MidJourney)。为了确保数据集的多样性和避免潜在的偏见,研究者对图像进行了筛选,剔除了依赖文本的幽默内容,并保留了与幽默无关的文本(如艺术家签名)。关键的一步是创建经过轻微修改的图像对,这些图像对在视觉结构上相似,但在幽默感上存在显著差异。通过这种方式,研究者能够控制模型学习到的相关性,避免模型依赖于图像中的虚假关联。此外,研究者还通过众包平台(如Amazon Mechanical Turk和Prolific)收集了550名参与者对图像的主观评价,包括二分类(幽默或不幽默)、范围评分(1-10分)和成对比较(哪张图像更幽默)任务,以确保数据集的可靠性和一致性。
特点
HumorDB数据集的一个显著特点是其专注于视觉幽默的细微差异,特别是通过创建视觉上相似但幽默感不同的图像对来捕捉幽默的触发因素。数据集包含3545对图像,其中1271对被标记为幽默图像,1771对被标记为非幽默图像。每对图像经过精心设计,以确保模型能够理解幽默的细微差别,而不是依赖于图像中的明显特征。此外,数据集还提供了部分图像的英文描述,为视觉-语言模型的训练和评估提供了有价值的上下文信息。HumorDB的另一个特点是其多样化的评估任务,包括二分类、范围评分和成对比较任务,这些任务能够全面评估模型对视觉幽默的理解能力。
使用方法
HumorDB数据集的使用方法主要围绕其多样化的评估任务展开。研究者可以通过二分类任务(幽默或不幽默)来评估模型对图像幽默感的判断能力;通过范围评分任务(1-10分)来量化模型对幽默程度的感知;通过成对比较任务(哪张图像更幽默)来评估模型对幽默差异的敏感性。此外,数据集还支持视觉-语言模型的训练和评估,特别是通过提供图像的英文描述,帮助模型理解幽默的上下文。研究者可以使用HumorDB作为基准数据集,测试和优化现有的计算机视觉和视觉-语言模型,特别是那些依赖于大规模语言模型的模型。数据集的开源性质(CC BY 4.0许可证)也使得研究者能够自由地使用和扩展该数据集,推动视觉幽默理解领域的研究进展。
背景与挑战
背景概述
HumorDB是由伊利诺伊大学厄巴纳-香槟分校的Vedaant Jain、圣保罗大学的Felipe dos Santos Alves Feitosa以及哈佛医学院的Gabriel Kreiman等研究人员于2024年推出的一个专注于视觉幽默理解的图像数据集。该数据集的创建旨在解决计算机视觉领域中的一个重要挑战,即如何理解和评估图像中的幽默元素。HumorDB通过精心策划的图像对,展示了细微的视觉差异如何引发幽默感,并通过二元分类、范围回归和成对比较任务来捕捉幽默感知的主观性。这一数据集的推出为视觉幽默理解的研究提供了重要的基准,推动了视觉场景理解的边界。
当前挑战
HumorDB面临的挑战主要体现在两个方面。首先,视觉幽默的理解本身具有高度的主观性和复杂性,依赖于上下文和认知抽象能力,这使得模型难以准确捕捉图像中的幽默元素。其次,在数据集的构建过程中,研究人员需要克服图像选择的多样性和幽默评分的偏差问题。为了确保数据集的可靠性,研究人员通过众包平台收集了大量的人类评分,并通过重复图像和一致性检查来验证评分的可靠性。此外,数据集中包含的细微修改图像对也增加了模型训练的难度,要求模型能够识别并理解这些细微的视觉差异,而不是依赖于图像中的其他偏差。这些挑战使得HumorDB成为一个极具挑战性的基准数据集,推动了视觉幽默理解领域的研究进展。
常用场景
经典使用场景
HumorDB数据集在视觉幽默理解领域具有广泛的应用场景,尤其是在图像幽默感知的评估任务中。该数据集通过精心设计的图像对,捕捉了幽默感知中的细微视觉线索,使得研究者能够通过二元分类(幽默或非幽默)、范围回归(幽默程度评分)以及成对比较(哪张图像更幽默)等任务,深入探讨视觉幽默的复杂性。这些任务不仅为模型提供了多样化的评估方式,还为理解幽默的认知机制提供了数据支持。
解决学术问题
HumorDB数据集解决了视觉幽默理解中的多个关键学术问题。首先,它通过对比幽默评分的图像对,帮助研究者识别触发幽默的视觉线索,从而减少模型对潜在偏见的依赖。其次,该数据集为视觉语言模型提供了丰富的训练和评估场景,推动了视觉与语言结合的多模态研究。此外,HumorDB还为大规模多模态模型的零样本评估提供了基准,进一步推动了视觉幽默理解领域的技术进步。
衍生相关工作
HumorDB数据集衍生了一系列相关研究工作,尤其是在视觉幽默理解和多模态模型领域。基于该数据集,研究者开发了多种视觉语言模型,如BLIP和LLaVA,这些模型在幽默感知任务中表现出色。此外,HumorDB还激发了更多关于幽默生成和解释的研究,例如幽默图像生成和幽默文本匹配任务。这些工作不仅扩展了视觉幽默理解的研究边界,还为多模态人工智能的发展提供了新的方向。
以上内容由遇见数据集搜集并总结生成



