GuessWhat?!

Name: GuessWhat?!
Creator: OpenDataLab
Published: 2026-05-24 07:30:03
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/GuessWhat

下载链接

链接失效反馈

官方服务：

资源简介：

你猜怎么着？！是一个由 150K 人玩游戏组成的大规模数据集，在 66K 图像上共有 800K 视觉问答对。你猜怎么着？！是一种合作的两人游戏，其中两个玩家都看到了具有多个对象的丰富视觉场景的图片。一名玩家——神谕者——被随机分配到场景中的一个对象（可能是一个人）。另一个玩家——发问者——不知道这个物体，他的目标是找到隐藏的物体。为此，提问者可以提出一系列由预言机回答的“是-否”问题。

Here we present a large-scale dataset derived from gameplay data involving 150,000 participants, which contains 800,000 visual question-answer pairs across 66,000 images. This dataset is built upon a cooperative two-player game: both players are presented with images of rich visual scenes containing multiple objects. One player, referred to as the "oracle", is randomly assigned a specific object (possibly a person) within the scene. The other player, the "questioner", is unaware of this hidden object and aims to identify it by asking a series of yes-no questions that the oracle will answer.

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

构建方式

GuessWhat?!数据集的构建基于一个互动问答游戏，其中包含一个图像、一个目标对象和一系列问答对。首先，通过预训练的图像识别模型从图像中提取对象信息，并生成候选对象列表。随后，利用自然语言处理技术，生成一系列关于目标对象的问题和答案，这些问题和答案通过人工标注进行验证和修正，确保其准确性和连贯性。最终，这些问答对与图像和目标对象信息相结合，形成一个完整的互动问答数据集。

特点

GuessWhat?!数据集的显著特点在于其互动性和多模态性。该数据集不仅包含了图像信息，还结合了自然语言问答对，使得模型能够在视觉和语言两个维度上进行学习和推理。此外，数据集中的问答对具有高度的上下文依赖性，要求模型能够理解并利用先前的对话信息来回答后续问题。这种设计使得数据集在视觉问答和对话系统研究中具有重要的应用价值。

使用方法

GuessWhat?!数据集主要用于训练和评估视觉问答（VQA）和对话生成模型。研究者可以通过该数据集训练模型，使其能够根据图像内容生成合理的问答对，或者根据给定的问答对推断图像中的目标对象。此外，数据集还可以用于评估模型的多模态理解能力，通过比较模型生成的问答对与真实标注的差异，来衡量模型的性能。在实际应用中，该数据集可用于开发智能助手、图像搜索系统等需要结合视觉和语言理解的应用场景。

背景与挑战

背景概述

GuessWhat?!数据集由加拿大蒙特利尔大学的研究人员于2017年提出，旨在解决视觉问答（Visual Question Answering, VQA）领域中的多轮对话问题。该数据集通过模拟人类在图像中进行目标识别和定位的对话过程，推动了智能对话系统与计算机视觉技术的融合。GuessWhat?!的构建基于大量标注的图像数据，涵盖了多种日常场景和物体，为研究者提供了一个标准化的测试平台，极大地促进了VQA领域的发展和应用。

当前挑战

GuessWhat?!数据集在构建过程中面临多项挑战。首先，多轮对话的复杂性要求系统能够理解并记忆对话历史，这对模型的记忆和推理能力提出了高要求。其次，图像中的目标识别和定位需要精确的视觉信息处理，而现实场景中的遮挡、光照变化等因素增加了识别难度。此外，数据集的标注工作涉及大量人工成本，如何提高标注效率和准确性也是一个重要问题。最后，如何设计有效的评估指标来衡量对话系统的性能，确保其在实际应用中的有效性，也是该数据集面临的一大挑战。

发展历史

创建时间与更新

GuessWhat?!数据集由加拿大蒙特利尔大学的研究团队于2017年创建，旨在推动视觉问答（Visual Question Answering, VQA）领域的发展。该数据集自创建以来，经历了多次更新和扩展，以适应不断变化的算法需求和研究方向。

重要里程碑

GuessWhat?!数据集的一个重要里程碑是其在2018年发布的扩展版本，该版本增加了更多的图像和问答对，显著提升了数据集的规模和多样性。此外，2019年，该数据集被广泛应用于多个国际会议和竞赛中，如CVPR和ECCV，进一步推动了VQA领域的研究进展。这些里程碑事件不仅展示了数据集的广泛应用，也反映了其在学术界和工业界的影响力。

当前发展情况

目前，GuessWhat?!数据集已成为视觉问答领域的重要基准之一，被广泛用于评估和比较不同算法的性能。随着深度学习和计算机视觉技术的不断进步，该数据集也在不断更新和优化，以适应新的研究需求。此外，GuessWhat?!数据集的成功应用，激发了更多关于多模态学习和交互式问答系统的研究，为相关领域的发展提供了宝贵的数据资源和研究方向。

发展历程

GuessWhat?!数据集首次发表在《GuessWhat?! Visual Object Discovery through Multi-modal Dialogue》论文中，该论文由Harm de Vries等人在CVPR 2017会议上提出。
2017年
GuessWhat?!数据集首次应用于《Learning to Guess What to Ask》研究中，该研究探讨了在视觉对话系统中如何有效生成问题。
2018年
GuessWhat?!数据集在多个视觉对话挑战赛中被广泛使用，推动了相关领域的研究进展。
2019年
GuessWhat?!数据集的扩展版本发布，增加了更多的图像和对话数据，提升了数据集的多样性和复杂性。
2020年
GuessWhat?!数据集在多模态学习领域的研究中继续发挥重要作用，特别是在视觉问答和对话生成任务中。
2021年

常用场景

经典使用场景

GuessWhat?!数据集在自然语言处理领域中，主要用于研究视觉问答（Visual Question Answering, VQA）任务。该数据集通过提供图像、问题和答案的三元组，模拟了人类在视觉场景中进行交互式问答的过程。研究者可以利用此数据集训练模型，使其能够根据图像内容回答自然语言问题，从而推动了多模态学习的发展。

衍生相关工作

GuessWhat?!数据集的发布激发了大量相关研究工作，推动了视觉问答和多模态学习的进步。例如，研究者基于此数据集提出了多种改进的模型架构，如结合注意力机制的VQA模型，显著提高了问答的准确性。此外，该数据集还被用于评估和比较不同模型的性能，促进了学术界对多模态学习方法的深入探讨。

数据集最近研究