three-mountain-scaling

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/grow-ai-like-a-child/three-mountain-scaling

下载链接

链接失效反馈

官方服务：

资源简介：

ThreeMountain_Scaling数据集是一个用于问答任务的数据集，包含几何对象的空间布局问题。数据集由多个字段组成，包括问题、答案、场景描述、设置、类别、提示等。数据集中的图片分为参考图和候选选择，答案为A、B、C或D中的一个。数据集分为spatiality和perspective两个部分，适用于不同的应用场景。

The ThreeMountain_Scaling dataset is a dataset designed for question answering tasks, covering spatial layout problems of geometric objects. It consists of multiple fields including question, answer, scene description, setup, category, prompt, and others. The images in the dataset are divided into reference images and candidate choices, and the answer is one of A, B, C or D. The dataset is split into two parts: spatiality and perspective, which are suitable for different application scenarios.

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

ThreeMountain_Scaling数据集通过精心设计的实验范式构建，聚焦于空间认知与视觉问答任务。数据生成采用参数化场景配置，通过几何对象（GO）或真实对象（RO）的排列组合（如L型或弧形布局），结合随机化角色位置（RC）、固定角色位置（FC）及随机缩放（RS）等变量，系统化生成多样化视觉刺激。每个样本包含参考图像与候选选项图像对，并标注唯一标识符（UID）、自然语言问题及标准答案，数据以结构化Parquet格式存储，分为空间性（spatiality）和视角（perspective）两个子集。

特点

该数据集的核心价值在于其多维度的空间关系表征能力。通过编码几何布局（L/Arc）、对象属性（GO/RO）和观察视角（left/right）等变量，构建了丰富的视觉推理任务。数据样本包含五张关联图像（一张提示图加四个选项），配合自然语言问题与结构化元数据（如场景类别、配置参数、提示模板），支持细粒度的空间认知研究。特别设计的随机化参数（RC/RS）确保了数据的泛化性，而严格的唯一标识体系和版本控制则保障了数据可追溯性。

使用方法

使用该数据集时，建议通过HuggingFace数据集库加载parquet格式文件，按spatiality或perspective子集进行调用。每个样本的media字段包含图像路径列表，需与本地存储路径或云端存储系统对接。模型训练时应联合处理视觉数据（image0-image4）与文本数据（question/prompt），利用choices字典验证选项对应关系。评估阶段需严格遵循answer字段的标准答案，结合hint字段的答题规范。对于多模态研究，可重点挖掘prompt字段中的<image>占位符与视觉内容的关联机制。

背景与挑战

背景概述

ThreeMountain_Scaling数据集是一个专注于视觉问答（Visual Question Answering, VQA）和空间推理任务的多模态数据集，由研究者kaia及其团队开发。该数据集通过精心设计的几何物体排列和视角变换，旨在评估模型在复杂空间场景下的理解与推理能力。其核心研究问题聚焦于如何提升人工智能系统对三维空间关系的感知与解释能力，尤其在多图像输入和自然语言交互场景中的应用。数据集采用自生成方式构建，涵盖了多种空间配置（如L形排列、弧形排列）和物体属性（如随机缩放、固定或随机角色位置），为计算机视觉和认知科学领域提供了重要的基准测试平台。

当前挑战

ThreeMountain_Scaling数据集面临的主要挑战体现在两方面：领域问题层面，现有模型对多视角空间关系的泛化能力不足，尤其在物体随机缩放（RS）或角色位置随机化（RC）等动态场景中，准确率显著下降；数据构建层面，生成具有严格空间逻辑一致性的多图像序列需平衡几何规则与自然语言问题的复杂性，且需避免标注偏差。此外，数据编码采用‘多图像’模式（如参考图像与候选图像组合），对模型的跨模态对齐能力提出了更高要求。

常用场景

经典使用场景

ThreeMountain_Scaling数据集在认知心理学和计算机视觉领域具有重要价值，尤其在空间认知和视觉问答任务中表现突出。该数据集通过精心设计的几何物体排列和视角变换，模拟了人类在三维空间中的认知过程。研究人员可以借助该数据集探究人类如何理解和推理不同视角下的空间关系，为视觉空间认知研究提供了标准化评估工具。

解决学术问题

该数据集有效解决了空间认知研究中缺乏标准化评估基准的难题。通过控制物体排列方式（L型或弧形）、视角变换（固定或随机视角）和物体缩放等变量，为研究空间表征、视角采择和心理旋转等经典认知问题提供了量化指标。其多模态设计（图像与问题配对）特别适合探究视觉-语言跨模态理解机制，推动了认知科学与人工智能的交叉研究。

衍生相关工作

该数据集已催生多项创新研究，包括基于Transformer的多视角空间推理模型、结合认知启发的神经网络架构设计等。部分研究将其扩展为动态场景理解基准，通过引入时间维度研究运动物体的空间表征。在跨文化认知研究领域，学者们利用该数据集比较了不同文化背景受试者的空间认知策略差异。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集