MoVT-Eval

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/ZejunLi/MoVT-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

这是论文'Mixture-of-Visual-Thoughts: 探索上下文自适应推理模式选择用于通用视觉推理'的评价数据集。该数据集是对现有数据集的子集精选，包括Math-Vista, MathVision, MathVerse, WeMath, V*, MMStar, SpatialScore, POPE等。

创建时间：

2025-10-18

原始信息汇总

MoVT-Eval 数据集概述

数据集基本信息

数据集名称: Mixture-of-Visual-Thoughts Evaluation Data
许可协议: Apache-2.0
存储库地址: https://huggingface.co/datasets/ZejunLi/MoVT-Eval

数据集来源

本数据集未引入新数据，仅从现有数据集中筛选整理而成，包含以下数据集：

Math-Vista
MathVision
MathVerse
WeMath
V*
MMStar
SpatialScore
POPE

使用说明

请按照原始数据集来源的要求使用这些数据
详细说明请参考GitHub仓库：https://github.com/Future-Living-Lab/mixture-of-visual-thoughts

数据准备步骤

下载数据： bash huggingface-cli download --repo-type dataset --resume-download ZejunLi/MoVT-Eval --local-dir MoVT-Eval --local-dir-use-symlinks False
解压数据： bash cd MoVT-Eval cat MoVT-Eval-part_* > MoVT-Eval.zip unzip MoVT-Eval.zip

相关论文

论文标题：Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
论文链接：https://arxiv.org/pdf/2509.22746

搜集汇总

数据集介绍

构建方式

在视觉推理研究领域，MoVT-Eval数据集并未独立构建新的标注内容，而是通过精心筛选现有权威基准的子集整合而成。该数据集汇聚了Math-Vista、MathVision、MathVerse等八个成熟视觉推理数据集的核心评估样本，采用标准化数据清洗流程确保样本质量与原始来源一致。这种构建策略既保留了各数据集的领域特性，又通过统一格式整合为跨任务评估基准，为研究多模态推理模型的泛化能力提供了结构化基础。

特点

作为视觉上下文自适应推理研究的评估基准，该数据集最显著的特点是覆盖了数学图解、空间关系、视觉问答等多元推理场景。其样本兼具文本描述与图像输入的双模态特性，且问题难度呈现阶梯式分布，从基础认知到复杂逻辑推理均有体现。数据集中还保留了原始数据集的质量验证标签，确保评估结果的可比性与可复现性，为分析模型在不同推理模式下的表现提供了立体化观测维度。

使用方法

研究者可通过HuggingFace官方工具链直接下载该数据集压缩包，使用命令行工具执行分卷合并与解压操作即可获得标准化数据目录。数据加载后需严格遵循各子集原始许可协议，建议参照作者提供的GitHub仓库中的评估脚本进行基准测试。该数据集主要用于视觉语言模型的零样本评估与消融实验，支持以统一接口调用多个子数据集，显著提升跨任务评估效率。

背景与挑战

背景概述

视觉推理作为多模态人工智能的核心研究方向，旨在通过整合视觉信息与逻辑推理解决复杂认知任务。MoVT-Eval数据集由Future Living Lab研究团队于2025年创建，作为《Mixture-of-Visual-Thoughts》论文的评估基准，其核心目标在于探索上下文自适应推理模式选择机制对通用视觉推理任务的优化路径。该数据集通过系统整合Math-Vista、MathVerse等八个权威视觉推理基准，构建了覆盖数学解题、空间关系、事实核查等多维度的评估体系，为研究视觉语言模型的泛化能力与推理模式自适应机制提供了关键实验基础。

当前挑战

通用视觉推理领域长期面临任务类型分散与评估标准不统一的瓶颈，MoVT-Eval需应对数学符号理解、几何空间关系建模、多跳逻辑推理等异构任务的统一评估挑战。在数据集构建过程中，研究者需克服原始数据格式异构、标注标准差异及版权合规性等工程难题，通过设计标准化数据接口与元数据规范，确保八个子数据集在评估框架中的协同性与可比性。这种跨基准整合工作既要求保持原有数据集的特性，又需建立统一的评估协议以支撑可靠的模型性能对比。

常用场景

经典使用场景

在视觉推理研究领域，MoVT-Eval数据集通过整合多个权威基准构建了综合性评估框架，其经典应用体现在系统化评测多模态模型的上下文自适应推理能力。该数据集覆盖数学视觉问题解答、空间关系判断及对象存在性验证等多样化任务，为探索模型在不同情境下的思维模式切换机制提供了标准化实验环境，显著推进了通用视觉推理技术的迭代优化。

实际应用

基于该数据集构建的评估范式已广泛应用于智能教育系统的认知诊断模块，通过分析学习者在数学视觉问题中的推理路径，自适应生成个性化辅导方案。在工业质检领域，其衍生的多模态评估方法被用于训练精密仪器视觉检测系统，显著提升了设备对复杂装配场景的异常识别准确率，为智能制造与自动化运维提供了可靠的技术支撑。

衍生相关工作

该数据集的发布催生了系列创新研究，包括基于动态路由机制的视觉思维混合架构、面向跨模态任务的元学习训练策略等。其构建方法启发了Vigor等后续基准的数据融合范式，相关技术被MMMU等巨型多模态评测体系采纳，形成了以语境自适应推理为核心的技术演进脉络，持续推动着通用人工智能在视觉认知层面的突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集