YesBut

Name: YesBut
Creator: 印度理工学院卡拉格普尔分校
Published: 2024-09-20 23:45:29
License: 暂无描述

arXiv2024-09-20 更新2024-09-26 收录

下载链接：

https://github.com/abhi1nandy2/yesbut_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

YesBut数据集由印度理工学院卡拉格普尔分校创建，旨在评估视觉语言模型对讽刺理解的能力。该数据集包含2547张图像，其中1084张为讽刺图像，1463张为非讽刺图像，涵盖多种艺术风格。数据集的创建过程包括从社交媒体收集图像、人工标注、使用DALL-E 3生成2D和3D图像等步骤。YesBut数据集主要应用于多模态任务，如讽刺图像检测、理解和完成，旨在解决现有视觉语言模型在讽刺理解上的不足。

The YesBut Dataset was developed by the Indian Institute of Technology Kharagpur to evaluate the ability of vision-language models to understand sarcasm. This dataset contains 2,547 images in total, including 1,084 sarcastic images and 1,463 non-sarcastic images, covering a diverse range of art styles. The construction process of the dataset includes collecting images from social media, manual annotation, and generating 2D and 3D images using DALL-E 3. The YesBut Dataset is mainly applied to multimodal tasks such as sarcastic image detection, understanding and completion, aiming to address the limitations of existing vision-language models in sarcasm comprehension.

提供机构：

印度理工学院卡拉格普尔分校

创建时间：

2024-09-20

搜集汇总

数据集介绍

构建方式

YesBut数据集通过多阶段精心构建，旨在评估视觉-语言模型对讽刺理解的能力。首先，从社交媒体平台手动收集283张讽刺图片，并进行详细标注。随后，利用DALL-E 3模型生成2D和3D的简笔画图像，以增加数据集的多样性和规模。每个讽刺图像包含两个子图像，分别描述一个正常场景和一个与之冲突的讽刺场景，并通过人工标注确保其讽刺性的准确描述。

特点

YesBut数据集的显著特点在于其高度的多样性和复杂性。数据集包含2547张图像，其中1084张为讽刺图像，1463张为非讽刺图像，涵盖了多种艺术风格，如彩色素描、2D和3D简笔画。每个讽刺图像都经过精心设计，包含两个子图像，一个描述正常场景，另一个则通过冲突或讽刺的方式与之对比，从而形成讽刺效果。此外，数据集的图像中大部分不包含文本，增加了模型理解讽刺的难度。

使用方法

YesBut数据集主要用于评估视觉-语言模型在讽刺图像检测、理解和完成任务中的表现。研究者可以通过该数据集进行零样本学习和零样本链式思维（CoT）设置下的模型评估。具体任务包括：讽刺图像检测（判断图像是否为讽刺）、讽刺图像理解（生成图像讽刺原因的自然语言描述）和讽刺图像完成（根据部分图像选择另一部分图像，使完整图像具有讽刺性）。通过这些任务，研究者可以全面评估模型在多模态讽刺理解中的能力。

背景与挑战

背景概述

YesBut数据集由印度理工学院卡拉格普尔分校、马萨诸塞大学阿默斯特分校和哈尔迪亚理工学院的研究人员共同创建，旨在评估视觉语言模型对讽刺理解的能力。该数据集包含2547张图像，其中1084张为讽刺图像，1463张为非讽刺图像，涵盖不同的艺术风格。YesBut数据集的创建旨在解决当前视觉语言模型在理解和生成讽刺图像方面的不足，通过提出讽刺图像检测、理解和完成三项挑战性任务，推动多模态讽刺理解研究的发展。

当前挑战

YesBut数据集面临的挑战主要集中在讽刺图像的检测、理解和完成任务上。首先，讽刺图像的检测任务要求模型能够准确区分讽刺与非讽刺图像，这在缺乏文本线索的情况下尤为困难。其次，讽刺图像的理解任务需要模型生成对图像讽刺性的自然语言描述，这对模型的语言生成能力和常识推理能力提出了高要求。最后，讽刺图像的完成任务要求模型在给定部分图像的情况下，选择合适的另一半图像以形成完整的讽刺场景，这需要模型具备强大的视觉和语言联合推理能力。此外，数据集在构建过程中遇到的挑战包括图像的多艺术风格处理、人工标注的主观性以及模型在零样本设置下的表现不佳等问题。

常用场景

经典使用场景

YesBut数据集的经典使用场景主要集中在评估视觉-语言模型对讽刺理解的能力。该数据集通过包含2547张图像，其中1084张为讽刺图像，1463张为非讽刺图像，涵盖了不同的艺术风格，用于评估模型在讽刺图像检测、理解和完成任务中的表现。这些任务不仅要求模型识别图像是否具有讽刺性，还需要生成解释图像为何讽刺的自然语言描述，以及在给定部分图像的情况下选择另一部分图像，使得完整图像具有讽刺性。

实际应用

YesBut数据集在实际应用中具有广泛的应用前景，特别是在社交媒体内容分析和自动内容审核领域。通过训练和评估模型在YesBut数据集上的表现，可以开发出能够自动检测和理解社交媒体上讽刺内容的工具，帮助平台识别和处理具有讽刺性质的内容，从而提高内容审核的准确性和效率。此外，该数据集还可用于开发教育工具，帮助用户更好地理解和识别讽刺内容。

衍生相关工作

YesBut数据集的发布催生了一系列相关研究工作，特别是在多模态讽刺检测和理解领域。研究者们利用该数据集开发了多种新的模型和方法，以提高视觉-语言模型在讽刺内容处理上的性能。此外，YesBut数据集还激发了对讽刺内容生成和评估的新研究方向，推动了多模态数据集在讽刺和幽默理解领域的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集