GuessBench

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/Zifeng618/GuessBench

下载链接

链接失效反馈

官方服务：

资源简介：

GuessBench是一个新颖的基准数据集，用于评估视觉语言模型在模拟人类创造力的普遍性、噪声性和多元性方面的能力。该数据集从“Guess the Build”在线多人Minecraft迷你游戏中获取数据，游戏中一个玩家根据一个概念构建Minecraft建筑，其他玩家则通过自然语言提示来猜测这个概念。数据集包含了1500张游戏中的实际图片和2000个设计问题，这些问题涵盖了静态和动态的图像环境以及不同完整度的自然语言提示。

创建时间：

2025-05-14

原始信息汇总

GuessBench 数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别:
- 视觉问答 (Visual Question Answering)
- 问答 (Question Answering)
语言: 英语 (en)
标签:
- 创造力 (creativity)
- 创造力理解 (creativity understanding)
- 多模态大语言模型 (multimodal-large-language-models)
- 视觉语言 (vision-language)
- 多轮对话 (multi-turn)
数据规模: 1K<n<10K

数据集配置

配置名称: default
- 数据文件:
  - split: static
    - 路径: static.parquet
  - split: dynamic
    - 路径: dynamic.parquet

数据集简介

GuessBench 是一个新颖的基准测试，用于评估视觉语言模型 (VLMs) 在建模人类创造力方面的表现。数据集来源于 "Guess the Build" 这个在线多人 Minecraft 小游戏，其中一个玩家根据给定的概念（如毛毛虫）构建 Minecraft 建筑，其他玩家则尝试通过自然语言提示来猜测它。GuessBench 提供了 1500 张实际游戏中的图像，并设计了 2000 个问题，涵盖静态和动态图像设置、不同完整度的自然语言提示等。

数据示例

image/png

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，GuessBench通过采集真实游戏场景构建了创新性基准数据集。该数据集源自《Guess the Build》这款多人在线 Minecraft 迷你游戏，开发团队从实际游戏过程中精选了1500张图像素材，并围绕这些视觉内容设计了2000道涵盖静态与动态图像场景的测试题目。数据构建过程特别注重保留玩家通过自然语言提示进行创造性互动的原始模式，确保了数据生态的真实性与多样性。

特点

作为评估模型创造性理解能力的重要工具，GuessBench展现出鲜明的多模态特性。数据集不仅包含丰富的视觉素材，更融合了不同完整度的自然语言提示，构建出模拟人类创造性思维过程的测试环境。其独特价值在于捕捉了现实世界中存在的噪声性与多元性创造行为，通过静态与动态图像配置的双重设置，为研究视觉语言模型的感知推理能力提供了立体化的评估维度。

使用方法

对于致力于创造性人工智能研究的学者而言，GuessBench提供了标准化的评估框架。研究者可通过加载数据集中的静态与动态分册，将视觉语言模型置于猜谜者角色，观察模型如何根据图像内容和语言提示进行创造性推理。该基准支持对模型在多轮对话情境下处理不完整信息能力的系统测评，为探索人工智能在开放域创造性任务中的表现建立了可靠实验平台。

背景与挑战

背景概述

在人工智能与多模态学习交叉领域蓬勃发展的背景下，GuessBench数据集于当代应运而生，由专注于创造性认知计算的研究团队构建。该数据集以在线多人游戏《Guess the Build》为实验场域，通过记录玩家根据抽象概念构建 Minecraft 模型并生成自然语言提示的过程，系统性地捕捉人类创造性表达的噪声性与多元性特征。其核心研究目标在于评估视觉语言模型对非结构化创造性行为的理解能力，通过1500张实际游戏图像与2000个问题构成的语料库，为多模态推理研究提供了生态效度更高的评估基准，显著推进了创造性计算与具身智能的融合发展。

当前挑战

该数据集致力于解决视觉语言模型在创造性语义理解领域的核心挑战：如何从包含大量噪声与歧义的多模态数据中提取稳定的创造性模式。在构建过程中面临双重困难：其一是游戏场景中玩家生成的提示具有高度简略性与主观性，要求模型具备跨模态类比推理能力；其二是动态图像序列的时序建模需要解决建筑过程渐进性与猜测行为即时性的矛盾，这对标注一致性与数据清洗流程提出了极高要求。

常用场景

经典使用场景

在视觉语言模型研究领域，GuessBench作为评估模型对人类创造力理解能力的重要基准，其经典应用场景聚焦于模拟真实环境中的多模态交互过程。该数据集通过收集《Guess the Build》在线游戏中的1500幅建筑图像与2000个问题，构建了包含静态与动态图像设置、不同完整度自然语言提示的测试框架，使研究者能够系统评估模型在开放式创造性任务中的表现。这种基于游戏生态的数据采集方式，为研究多轮对话中的视觉推理与语言理解提供了天然实验场。

解决学术问题

该数据集有效解决了视觉语言模型在处理人类创造性表达时的核心学术难题。传统基准往往局限于标准化的视觉问答任务，而GuessBench通过引入真实场景中存在的噪声数据与多元解释，推动模型从机械识别转向对创造性意图的深层理解。其价值在于建立了评估模型感知非规范式视觉表达能力的量化体系，为突破模型在创造性思维建模方面的瓶颈提供了关键方法论支撑，显著推进了多模态人工智能在认知科学交叉领域的发展。

衍生相关工作

基于GuessBench数据集已催生系列创新性研究，特别是在多模态大语言模型的创造性理解方向。诸多工作借鉴其动态图像设置与渐进式提示设计，开发出更具适应性的视觉推理架构。部分研究进一步扩展了数据集的评估维度，引入认知科学中的创造力量化指标，形成了更完善的多模态创造力评估体系。这些衍生工作共同推动建立了“视觉语言模型创造力评估”这一新兴研究方向的方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集