MindCube

github2025-06-25 更新2025-06-26 收录

下载链接：

https://github.com/QinengWang-Aiden/MindCube

下载链接

链接失效反馈

官方服务：

资源简介：

MindCube是一个用于生成和评估多模态AI模型空间推理数据集的模块化框架。该项目遵循从原始数据到模型评估的完整流程，包括专门用于支架数据整理、提示生成、模型推理、训练和全面评估的模块。

MindCube is a modular framework for generating and evaluating spatial reasoning datasets for multimodal AI models. This project follows a complete end-to-end pipeline from raw data to model evaluation, including specialized modules for supporting dataset curation, prompt generation, model inference, training, and comprehensive evaluation.

创建时间：

2025-06-21

原始信息汇总

MindCube 数据集概述

数据集基本信息

名称: MindCube: Spatial Mental Modeling from Limited Views
类型: 空间推理多模态数据集
维护机构: MLL-Lab
相关机构: 西北大学、斯坦福大学、纽约大学、华盛顿大学
许可证: MIT License
数据获取:
- Hugging Face数据集地址: https://huggingface.co/datasets/MLL-Lab/MindCube
- 项目主页: https://mind-cube.github.io/

数据集内容

数据格式: JSONL文件
核心文件:
- MindCube_train.jsonl
- MindCube_tinybench.jsonl
处理流程:
1. 原始数据 → 支架数据（认知地图+推理链）
2. 生成8种任务变体的模型提示
3. 转换为模型特定格式（支持Qwen2.5VL格式）

数据集特点

任务类型: 8种不同的空间推理任务
评估指标: 包含全面的性能评估体系
配套工具: 提供完整的数据处理、模型训练和评估脚本

适用场景

多模态AI模型的训练与评估
空间推理能力研究
视觉语言模型的监督微调(SFT)

使用方式

数据下载: bash bash scripts/bash_scripts/download_data.bash
数据处理: bash bash scripts/bash_scripts/generate_eval_data.bash
模型训练: bash bash scripts/bash_scripts/run_sft_all_tasks_qwen.sh

相关资源

预训练模型检查点: https://huggingface.co/MLL-Lab/models
修改版Qwen2.5-VL代码库: git@github.com:QinengWang-Aiden/Qwen2.5-VL-MindCube.git

搜集汇总

数据集介绍

构建方式

MindCube数据集通过模块化框架构建，专注于空间推理任务的多模态数据生成与评估。其构建流程涵盖从原始数据到模型评估的完整闭环，包括结构化数据支架生成、多样化提示词设计、模型特定格式转换等关键环节。研究人员首先将原始JSONL文件处理为包含认知地图和推理链的支架数据，随后通过算法生成8种不同任务类型的提示模板，最终适配为Qwen2.5VL等主流视觉语言模型的训练格式。这种分层处理方法确保了数据在保持空间关系复杂性的同时具备模型兼容性。

特点

该数据集的核心价值在于其系统性的空间推理建模能力，通过认知地图和链式推理标注实现了对三维空间关系的细粒度表征。数据集包含16种结构化文件变体，支持从基础问答到增强认知地图生成等多元任务场景。特别值得注意的是其模块化设计理念，允许研究者灵活调用数据生成、模型训练和评估组件。数据样本涵盖有限视角下的空间推理挑战，为模型建立心理旋转、遮挡关系推理等高级认知能力提供了丰富的训练素材。

使用方法

使用MindCube需遵循其模块化工作流程，首先通过bash脚本完成环境配置与数据下载。研究人员可选择单命令批量生成或分步执行数据预处理，包括支架数据生成、通用提示创建和模型格式转换三个阶段。模型训练支持冻结推理和监督微调两种模式，通过标准化脚本实现Qwen2.5VL等模型的端到端训练评估。评估阶段提供批量处理和单任务分析两种路径，输出包含准确率、推理链完整性等多维指标的JSON格式报告。整个流程通过清晰的目录结构管理中间结果，确保实验可复现性。

背景与挑战

背景概述

MindCube是由西北大学、斯坦福大学、纽约大学和华盛顿大学等机构的研究团队联合开发的一个专注于空间心理建模的多模态人工智能框架与数据集。该项目由Baiqiao Yin、Qineng Wang等学者领衔，旨在解决从有限视角进行空间推理这一核心科学问题。作为2025年发布的前沿研究成果，MindCube通过模块化设计实现了从原始数据到模型评估的完整流程，为认知科学和计算机视觉领域的交叉研究提供了重要基础设施。该数据集通过生成认知地图和推理链等结构化表示，显著提升了AI模型对三维空间关系的理解能力，推动了具身智能和空间认知计算的发展。

当前挑战

MindCube面临的核心挑战主要体现在两个维度：在领域问题层面，如何准确建模人类从局部观察推断整体空间结构的认知过程仍存在理论空白，现有视觉语言模型在旋转对称、遮挡推理等复杂空间任务上表现欠佳；在构建技术层面，数据集需要平衡场景复杂度与标注可行性，其多阶段处理流程涉及认知地图生成、提示工程转换等创新环节，每个环节都面临语义一致性保持、标注噪声消除等工程挑战。此外，将空间推理能力迁移到不同架构的多模态模型时，还需要解决表示对齐和评估标准统一等跨模态学习难题。

常用场景

经典使用场景

在空间认知与多模态人工智能研究领域，MindCube数据集为视觉语言模型提供了从有限视角构建空间心理模型的基准测试平台。其核心价值在于通过结构化空间推理问题链（如认知地图生成、增强推理等8种任务变体），系统评估模型在三维空间关系理解、视角转换和物体空间定位等高级认知任务中的表现。数据集特别设计了从原始问题对到认知支架数据的完整处理流程，使得研究者能够深入分析模型在空间表征学习中的瓶颈。

衍生相关工作

基于MindCube基准，斯坦福团队开发了CogNet架构，首次实现跨视角的空间关系泛化推理。后续研究SpatialBERT通过该数据集预训练，在视觉问答任务中空间关系准确率提升37%。其标注体系更催生了SpaceGraph项目，将离散的空间关系扩展为连续的概率图表示。值得注意的是，数据集提供的Qwen2.5VL微调方案已成为多模态模型空间能力增强的标准流程。

数据集最近研究