MiSI-Bench

Name: MiSI-Bench
Creator: 中国人民大学高瓴人工智能学院, 清华大学计算机科学与技术系, 清华大学人工智能产业研究院, 北京大学环境科学与工程学院, 中国科学院自动化研究所, 阿里巴巴达摩院, 湖畔实验室
Published: 2025-12-12 02:00:21
License: 暂无描述

arXiv2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/zongzhao/MiSI-bench

下载链接

链接失效反馈

官方服务：

资源简介：

MiSI-Bench是由多个中国顶尖研究机构联合开发的微观空间智能评估数据集，旨在评估视觉语言模型在分子结构空间理解方面的能力。该数据集包含约16.3万条问答对和58.8万张图像，数据来源于约4,000个分子结构。数据集通过正交投影将三维分子结构转化为二维图像，并设计了9个互补任务来评估从基础空间变换到复杂关系识别的能力。该数据集主要应用于结构生物学、药物发现和材料设计等领域，旨在推动科学发现中微观空间智能的发展。

提供机构：

中国人民大学高瓴人工智能学院, 清华大学计算机科学与技术系, 清华大学人工智能产业研究院, 北京大学环境科学与工程学院, 中国科学院自动化研究所, 阿里巴巴达摩院, 湖畔实验室

创建时间：

2025-12-12

搜集汇总

数据集介绍

构建方式

在分子科学领域，对微观空间结构的感知与推理能力是科学发现的关键基础。MiSI-Bench数据集的构建基于精炼的PDBbind数据集，该数据集广泛用于基于结构的药物发现研究。研究者从约4,000个分子结构中提取了587,975张图像，并通过正交投影技术将三维微观实体转化为二维视觉表示，模拟专家使用软件工具分析分子几何的方式。数据生成过程涵盖从数据收集、注释到特定子任务样本合成的系统化流程，最终形成了覆盖九项互补任务的163,514个问答对，旨在独立评估空间变换与关系识别等基础能力，并进一步整合多项操作以测试高阶推理水平。

特点

该数据集的核心特点在于其系统性与层次化的任务设计。它首次将微观空间智能概念化为一个独立的评估领域，通过分解专家在分子结构分析中依赖的四种基本操作——平移、旋转、缩放与相互作用，构建了四个单元任务以独立检验各项基础能力。在此基础上，进一步设计了五项复合任务，要求模型对多项操作进行组合推理，从而全面评估视觉语言模型在微观尺度下的空间认知水平。数据规模庞大且覆盖多样，包含超过58万张图像与16万个问答对，任务类型兼顾填空与多项选择形式，既考察连续数值的精确推断，也测试对空间配置的判别理解。

使用方法

MiSI-Bench可作为训练与评估视觉语言模型微观空间智能的系统化基准框架。研究者可利用其丰富的训练集对模型进行监督微调，以激发模型在分子结构理解方面的潜在空间推理能力。在评估阶段，通过测试集上的九项任务全面衡量模型在基础空间变换与复杂关系识别上的表现，并与人类专家水平进行对比分析。数据集支持两种问题格式：填空问题要求模型补全含有缺失参数的操作指令，以评估其对精确属性的推断能力；多项选择题则提供若干候选选项，测试模型对空间配置的判别与推理水平。该框架为探索模型在科学发现领域的应用提供了标准化测评环境。

背景与挑战

背景概述

MiSI-Bench 数据集由中国人民大学、清华大学、北京大学等机构的研究团队于2025年提出，旨在评估视觉语言模型在微观空间智能领域的表现。该数据集聚焦于分子科学中的空间推理能力，即对不可见微观实体（如原子、分子）的空间关系进行感知与推断的核心认知技能。通过从约4000个分子结构中提取的58.7万张图像和16.3万个问答对，覆盖了从基础空间变换到复杂关系识别的九项互补任务，为结构生物学、药物发现等科学领域提供了首个系统性的微观空间智能评测基准。

当前挑战

MiSI-Bench 所针对的领域挑战在于推动视觉语言模型从宏观日常物体理解转向微观科学实体的空间推理，这要求模型具备对三维分子结构的几何变换感知以及基于专业知识的交互关系识别能力，例如氢键的判定。在构建过程中，研究团队面临的主要挑战包括：如何将三维分子结构有效转化为二维正交投影以模拟专家视觉分析流程；如何设计涵盖平移、旋转、缩放及交互等多种基础操作的任务框架以系统评估模型能力；以及如何在生成大规模高质量问答对时确保数据的科学准确性与视觉一致性，同时避免因分子结构复杂性导致的标注模糊或视觉重叠问题。

常用场景

经典使用场景

在分子科学与结构生物学的交叉领域，MiSI-Bench数据集被广泛应用于评估视觉语言模型在微观空间智能方面的能力。该数据集通过从约4000个分子结构中提取的587,000张图像和163,000个问答对，构建了涵盖平移、旋转、缩放及氢键识别等九项互补任务。其经典使用场景在于系统性地测试模型对三维分子结构的感知与推理能力，例如从二维正交投影中重建三维构象，或推断原子间的物理相互作用，为模型在微观尺度下的空间理解提供了标准化评估框架。

解决学术问题

MiSI-Bench主要解决了视觉语言模型在微观科学领域中空间推理能力评估的缺失问题。传统宏观空间智能基准难以捕捉分子层面特有的几何变换与关系识别挑战，而该数据集通过设计单元任务与复合任务，量化了模型在平移、旋转等基础操作以及氢键识别等复杂科学任务上的表现。其意义在于揭示了当前先进模型与人类专家在微观空间理解上的显著差距，同时通过微调实验展示了模型在空间变换任务上超越人类的潜力，为科学通用人工智能的发展指明了需融合显式领域知识的路径。

衍生相关工作

MiSI-Bench的推出促进了微观空间智能领域的系列探索性研究。其构建方法启发了后续工作对更复杂生物分子体系（如蛋白质-核酸复合物或动态构象变化）的基准设计。部分研究基于该数据集的框架，开发了融合几何深度学习与视觉语言模型的新型架构，以提升对连续空间变换的泛化能力。同时，数据集中对氢键识别任务的局限性分析，推动了在预训练阶段注入领域知识（如分子力场或化学键规则）的融合策略研究，为科学多模态模型的演进提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集