MindCube|多模态AI数据集|空间推理数据集

github2025-06-26 更新2025-06-27 收录

多模态AI

空间推理

下载链接：

https://github.com/mll-lab-nu/MindCube

下载链接

链接失效反馈

资源简介：

MindCube是一个模块化框架，用于生成和评估多模态AI模型的空间推理数据集。该项目遵循从原始数据到模型评估的完整流程，包含专门用于支架数据整理、提示生成、模型推理、训练和全面评估的模块。

创建时间：

2025-06-21

原始信息汇总

MindCube数据集概述

数据集基本信息

名称: MindCube: Spatial Mental Modeling from Limited Views
类型: 空间推理多模态数据集
开发团队: 西北大学、斯坦福大学、纽约大学、华盛顿大学联合开发
许可证: MIT License
数据格式: JSONL文件
主页: https://mind-cube.github.io/
HuggingFace数据集地址: https://huggingface.co/datasets/MLL-Lab/MindCube
模型检查点: https://huggingface.co/MLL-Lab/models

数据集内容

原始数据文件:
- MindCube_train.jsonl
- MindCube_tinybench.jsonl
处理后的数据:
- 认知地图(Cogmap)
- 推理链(Reasoning chains)
- 8种任务变体的提示词

数据处理流程

原始数据处理
- 输入: JSONL格式的原始问答对
- 输出: 结构化认知地图和推理链
提示词生成
- 支持8种不同任务类型的提示词生成
模型格式转换
- 当前支持Qwen2.5VL格式

评估指标

提供批量评估和单独评估两种方式
输出详细的性能指标JSON文件

相关资源

代码库: https://github.com/mll-lab-nu/MindCube
修改版Qwen2.5-VL: https://github.com/QinengWang-Aiden/Qwen2.5-VL-MindCube

AI搜集汇总

数据集介绍

构建方式

MindCube数据集通过模块化框架构建，专注于空间推理任务的多模态AI模型训练与评估。其构建流程从原始数据出发，经过结构化处理生成认知地图与推理链，随后转化为多种任务类型的提示模板，最终适配不同模型格式。该过程采用分阶段处理策略，包括原始数据清洗、认知支架生成、多样化提示构建等关键步骤，确保数据质量与任务多样性。

特点

MindCube数据集的核心特点体现在其系统化的空间推理任务设计上。该数据集包含8种不同任务变体，覆盖从基础问答到复杂空间关系推理的多层次需求。数据集特别强调有限视角下的空间心理建模能力，通过认知地图和增强推理链等创新结构，为模型提供丰富的空间关系表征。其模块化设计支持Qwen2.5VL等多种主流视觉语言模型的直接适配，且包含完整的评估指标体系。

使用方法

使用MindCube数据集需遵循其模块化工作流程。首先配置包含PyTorch和Flash-Attention的专用环境，通过脚本下载预处理数据。用户可选择批量生成评估数据或分步执行支架构建、提示生成等操作。模型训练支持完整监督微调流程，包含硬件配置调整、Qwen仓库集成及定制化训练参数设置。评估阶段提供批量与单任务两种模式，输出包含标准性能指标的结构化结果。整个流程通过标准化脚本实现操作自动化。

背景与挑战

背景概述

MindCube是由西北大学、斯坦福大学、纽约大学和华盛顿大学的研究团队联合开发的多模态空间推理数据集与框架，旨在解决人工智能在有限视角下进行空间心理建模的核心问题。该数据集通过结构化处理原始空间推理数据，生成认知地图和推理链，为模型提供空间理解的脚手架。研究团队采用模块化设计，涵盖数据生成、提示构建、模型训练与评估全流程，显著推动了多模态模型在空间认知领域的发展。项目创建于2025年，汇聚了计算机视觉与认知科学领域的顶尖学者，其创新性的评估体系为衡量AI系统的空间推理能力建立了新标准。

当前挑战

MindCube面临的挑战主要体现在两个方面：在领域问题层面，如何准确建模人类从有限视觉输入中构建三维空间认知的能力仍存在显著差距，现有模型在复杂空间关系推理任务中的表现远低于人类水平；在构建过程层面，数据采集需平衡场景多样性与标注一致性，认知地图的自动生成面临语义鸿沟问题，而多任务提示设计需确保不同变体间的可比性。此外，评估指标的设计需兼顾自动化程度与认知科学性，这对跨学科协作提出了较高要求。

常用场景

经典使用场景

MindCube数据集在空间认知建模领域具有重要价值，其经典使用场景主要集中于多模态人工智能模型的训练与评估。该数据集通过提供结构化空间推理问题和图像，支持模型从有限视角构建完整空间心理表征。研究人员可利用其模块化框架，开展从原始数据处理到模型性能评估的完整实验流程，特别适合研究视觉语言模型在三维空间理解方面的能力边界。

解决学术问题

该数据集有效解决了空间认知计算中的关键学术难题。通过精心设计的认知地图和推理链标注，突破了传统方法在有限视角空间推理上的局限性。其包含的8种任务变体和多格式提示，为研究多模态模型的空间表征学习机制提供了标准化测试平台，显著推进了机器空间智能领域的可解释性研究。

衍生相关工作

该数据集已催生系列创新研究，包括基于Qwen2.5VL架构的空间推理专用模型开发，以及结合强化学习的混合训练范式探索。相关衍生工作显著提升了模型在视觉问答、场景重构等任务中的表现，其中多项成果已被计算机视觉顶会收录，形成了空间认知计算的新研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型，其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格，分为 16 个常见对象类（即桌子、椅子、平面等）。每个形状基本事实包含 2-5 个部分（总共 50 个部分类）。

OpenDataLab 收录

Global Flood Database (GFD)

全球洪水数据库（GFD）是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息，包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。

global-flood-database.cloudtostreet.info 收录

全国兴趣点（POI）数据

POI（Point of Interest），即兴趣点，一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息，分别为名称、类别、坐标、分类。其中，分类一般有一级分类和二级分类，每个分类都有相应的行业的代码和名称一一对应。 POI包含的信息及其衍生信息主要包含三个部分：

CnOpenData 收录

SHHS Sleep Heart Health Study Dataset

SHHS（Sleep Heart Health Study）数据集是一个大型多中心研究项目，旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。

sleepdata.org 收录

《1981—2010年中国主要农作物生育期图集》

开展了2001—2010年全国县域单元的主要农作物（春小麦，冬小麦，一季稻，双击早稻、双季晚稻、春玉米，夏玉米，棉花，春大豆，夏大豆）各生育期开始日期和结束日期的调研工作，结合全国农业气象站点的物候资料，绘制了《中国主要农作物生育期图集》。图中所表达的要素和指标均经过了专家鉴定，并考虑了它的农业意义和主要农作物对气象条件的要求，共绘制145幅图。

国家地球系统科学数据中心收录