MindCube_lmmseval

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/oscarqjh/MindCube_lmmseval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含文本和图像信息的数据集，分为full和tiny两个配置。full配置包含id、category、type、question、gt_answer和多个图像等特征，而tiny配置则增加了与生成指令和推理链相关的特征。数据集分为around、rotation和among三个部分，每个部分包含不同的示例数量和大小。

创建时间：

2025-10-16

原始信息汇总

MindCube_lmmseval 数据集概述

数据集基本信息

数据集名称：MindCube_lmmseval
配置版本：full、tiny
总下载大小：648,357,315 字节（full）、423,110,384 字节（tiny）
总数据集大小：12,054,968,566.209 字节（full）、1,115,585,958 字节（tiny）

数据结构特征

数据字段

id：字符串类型
category：字符串序列
type：字符串类型
meta_info：字符串序列的序列
question：字符串类型
gt_answer：字符串类型
grounded_cogmap：字符串类型
grounded_cogmap_description：字符串类型
aug_cogmap_gen_instruction：字符串类型
plain_cogmap_gen_instruction：字符串类型
reasoning_chain：字符串类型
input_prompt：字符串类型
grounded_output：字符串类型
images：图像序列

数据划分详情

full配置

around划分：1,869个样本，2,524,047,039.979字节
rotation划分：1,081个样本，1,850,070,779.422字节
among划分：18,204个样本，7,680,850,746.808字节

tiny配置

around划分：400个样本，163,882,427字节
rotation划分：200个样本，314,249,493字节
among划分：600个样本，637,454,038字节

文件配置

full配置数据文件

around划分路径：full/around-*
rotation划分路径：full/rotation-*
among划分路径：full/among-*

tiny配置数据文件

around划分路径：tiny/around-*
rotation划分路径：tiny/rotation-*
among划分路径：tiny/among-*

搜集汇总

数据集介绍

构建方式

在认知科学领域，MindCube_lmmseval数据集采用多模态认知图谱构建方法，通过精心设计的三个子集（around、rotation、among）构建评估框架。数据集包含1869个around样本、1081个rotation样本和18204个among样本，每个样本均配备完整的认知图谱描述和生成指令。构建过程中特别注重认知推理链条的完整性，为每个问题提供基础认知图谱与增强认知图谱的双重标注，确保数据在认知维度上的丰富性与层次性。

特点

该数据集最显著的特征在于其多维度的认知标注体系，不仅包含传统的问答对和图像序列，还创新性地引入了认知图谱及其文本描述。每个样本均配备推理链条和输入提示，支持对大型多模态模型的认知能力进行细粒度评估。数据集通过grounded_cogmap与aug_cogmap的对比设计，实现了从基础认知到增强认知的渐进式评估，为研究认知推理过程提供了独特的实验材料。

使用方法

研究人员可通过HuggingFace平台直接加载完整版或精简版配置，根据评估需求选择不同规模的子集进行实验。数据集支持端到端的多模态认知评估，用户可基于输入提示和认知图谱构建自定义评估流程。特别适合用于验证模型在认知推理、多模态理解和逻辑链条构建等方面的能力，其标准化的数据格式便于与主流深度学习框架无缝集成。

背景与挑战

背景概述

MindCube_lmmseval数据集作为多模态认知推理领域的重要基准，由MindCube研究团队构建，旨在评估大型多模态模型的复杂推理能力。该数据集通过整合视觉场景与结构化认知图谱，聚焦于空间关系推理与逻辑推断任务，其设计反映了认知科学中关于人类跨模态信息处理机制的研究进展。数据集包含around、rotation、among三大任务分支，每个分支对应不同的空间认知范式，为探索人工智能系统的符号接地问题提供了标准化测试平台。

当前挑战

该数据集需解决多模态推理中视觉符号对齐与逻辑连贯性的核心难题，具体体现为模型对认知图谱的语义解析能力不足，以及跨模态注意力机制在长链推理中的脆弱性。构建过程中面临双重挑战：认知地图的标注需保持符号系统与视觉元素的严格一致性，而动态场景下的推理链标注则要求平衡逻辑严谨性与现实场景的复杂性。此外，数据规模的扩展受限于高质量多模态标注资源的稀缺性，这进一步加剧了模型泛化能力的验证难度。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，MindCube_lmmseval数据集通过融合认知地图与多模态输入，为评估大型语言模型的推理能力提供了标准化基准。其经典应用体现在对空间关系、逻辑演绎及情境理解等认知任务的系统性测试中，研究者可借助该数据集量化模型在复杂推理链条中的表现，揭示其与人类认知模式的差异。

解决学术问题

该数据集有效应对了多模态推理评估中缺乏结构化认知标注的学术困境。通过提供带有认知地图、推理链和视觉锚点的数据实例，它解决了模型可解释性研究中的 grounding 难题，为验证神经符号集成方法的有效性提供了实验基础，推动了认知启发性人工智能的理论发展。

衍生相关工作

基于该数据集衍生的研究主要集中在认知图谱增强的推理框架构建。例如结合图神经网络与注意力机制的多模态融合模型，以及通过反事实推理生成技术改进的评估基准，这些工作显著拓展了具身认知理论在人工智能中的实践路径，催生了新一代可解释性评估范式的形成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集