five

MindCube|多模态AI数据集|空间推理数据集

收藏
github2025-06-25 更新2025-06-26 收录
多模态AI
空间推理
下载链接:
https://github.com/QinengWang-Aiden/MindCube
下载链接
链接失效反馈
资源简介:
MindCube是一个用于生成和评估多模态AI模型空间推理数据集的模块化框架。该项目遵循从原始数据到模型评估的完整流程,包括专门用于支架数据整理、提示生成、模型推理、训练和全面评估的模块。
创建时间:
2025-06-21
原始信息汇总

MindCube 数据集概述

数据集基本信息

  • 名称: MindCube: Spatial Mental Modeling from Limited Views
  • 类型: 空间推理多模态数据集
  • 维护机构: MLL-Lab
  • 相关机构: 西北大学、斯坦福大学、纽约大学、华盛顿大学
  • 许可证: MIT License
  • 数据获取:
    • Hugging Face数据集地址: https://huggingface.co/datasets/MLL-Lab/MindCube
    • 项目主页: https://mind-cube.github.io/

数据集内容

  • 数据格式: JSONL文件
  • 核心文件:
    • MindCube_train.jsonl
    • MindCube_tinybench.jsonl
  • 处理流程:
    1. 原始数据 → 支架数据(认知地图+推理链)
    2. 生成8种任务变体的模型提示
    3. 转换为模型特定格式(支持Qwen2.5VL格式)

数据集特点

  • 任务类型: 8种不同的空间推理任务
  • 评估指标: 包含全面的性能评估体系
  • 配套工具: 提供完整的数据处理、模型训练和评估脚本

适用场景

  • 多模态AI模型的训练与评估
  • 空间推理能力研究
  • 视觉语言模型的监督微调(SFT)

使用方式

  • 数据下载: bash bash scripts/bash_scripts/download_data.bash

  • 数据处理: bash bash scripts/bash_scripts/generate_eval_data.bash

  • 模型训练: bash bash scripts/bash_scripts/run_sft_all_tasks_qwen.sh

相关资源

  • 预训练模型检查点: https://huggingface.co/MLL-Lab/models
  • 修改版Qwen2.5-VL代码库: git@github.com:QinengWang-Aiden/Qwen2.5-VL-MindCube.git
AI搜集汇总
数据集介绍
main_image_url
构建方式
MindCube数据集通过模块化框架构建,专注于空间推理任务的多模态数据生成与评估。其构建流程涵盖从原始数据到模型评估的完整闭环,包括结构化数据支架生成、多样化提示词设计、模型特定格式转换等关键环节。研究人员首先将原始JSONL文件处理为包含认知地图和推理链的支架数据,随后通过算法生成8种不同任务类型的提示模板,最终适配为Qwen2.5VL等主流视觉语言模型的训练格式。这种分层处理方法确保了数据在保持空间关系复杂性的同时具备模型兼容性。
特点
该数据集的核心价值在于其系统性的空间推理建模能力,通过认知地图和链式推理标注实现了对三维空间关系的细粒度表征。数据集包含16种结构化文件变体,支持从基础问答到增强认知地图生成等多元任务场景。特别值得注意的是其模块化设计理念,允许研究者灵活调用数据生成、模型训练和评估组件。数据样本涵盖有限视角下的空间推理挑战,为模型建立心理旋转、遮挡关系推理等高级认知能力提供了丰富的训练素材。
使用方法
使用MindCube需遵循其模块化工作流程,首先通过bash脚本完成环境配置与数据下载。研究人员可选择单命令批量生成或分步执行数据预处理,包括支架数据生成、通用提示创建和模型格式转换三个阶段。模型训练支持冻结推理和监督微调两种模式,通过标准化脚本实现Qwen2.5VL等模型的端到端训练评估。评估阶段提供批量处理和单任务分析两种路径,输出包含准确率、推理链完整性等多维指标的JSON格式报告。整个流程通过清晰的目录结构管理中间结果,确保实验可复现性。
背景与挑战
背景概述
MindCube是由西北大学、斯坦福大学、纽约大学和华盛顿大学等机构的研究团队联合开发的一个专注于空间心理建模的多模态人工智能框架与数据集。该项目由Baiqiao Yin、Qineng Wang等学者领衔,旨在解决从有限视角进行空间推理这一核心科学问题。作为2025年发布的前沿研究成果,MindCube通过模块化设计实现了从原始数据到模型评估的完整流程,为认知科学和计算机视觉领域的交叉研究提供了重要基础设施。该数据集通过生成认知地图和推理链等结构化表示,显著提升了AI模型对三维空间关系的理解能力,推动了具身智能和空间认知计算的发展。
当前挑战
MindCube面临的核心挑战主要体现在两个维度:在领域问题层面,如何准确建模人类从局部观察推断整体空间结构的认知过程仍存在理论空白,现有视觉语言模型在旋转对称、遮挡推理等复杂空间任务上表现欠佳;在构建技术层面,数据集需要平衡场景复杂度与标注可行性,其多阶段处理流程涉及认知地图生成、提示工程转换等创新环节,每个环节都面临语义一致性保持、标注噪声消除等工程挑战。此外,将空间推理能力迁移到不同架构的多模态模型时,还需要解决表示对齐和评估标准统一等跨模态学习难题。
常用场景
经典使用场景
在空间认知与多模态人工智能研究领域,MindCube数据集为视觉语言模型提供了从有限视角构建空间心理模型的基准测试平台。其核心价值在于通过结构化空间推理问题链(如认知地图生成、增强推理等8种任务变体),系统评估模型在三维空间关系理解、视角转换和物体空间定位等高级认知任务中的表现。数据集特别设计了从原始问题对到认知支架数据的完整处理流程,使得研究者能够深入分析模型在空间表征学习中的瓶颈。
衍生相关工作
基于MindCube基准,斯坦福团队开发了CogNet架构,首次实现跨视角的空间关系泛化推理。后续研究SpatialBERT通过该数据集预训练,在视觉问答任务中空间关系准确率提升37%。其标注体系更催生了SpaceGraph项目,将离散的空间关系扩展为连续的概率图表示。值得注意的是,数据集提供的Qwen2.5VL微调方案已成为多模态模型空间能力增强的标准流程。
数据集最近研究
最新研究方向
随着多模态人工智能技术的快速发展,空间推理能力成为衡量模型认知水平的重要维度。MindCube数据集作为专门针对有限视角下空间心理建模的前沿工具,近期研究主要聚焦于如何通过模块化框架提升多模态模型的空间推理性能。该数据集通过构建认知地图和推理链的脚手架结构,支持从原始数据到模型评估的完整流程,为视觉语言模型在三维空间理解、视角转换和物体关系推理等核心任务提供了标准化基准。当前研究热点包括探索不同提示工程策略对模型性能的影响,以及如何通过监督微调使预训练模型适应复杂的空间推理任务。该数据集的发布填补了空间认知计算领域高质量评估资源的空白,对推动具身智能和增强现实等应用场景的发展具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

中国1km分辨率逐月平均气温数据集(1901-2024)

该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录