MoVT-Train

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/ZejunLi/MoVT-Train

下载链接

链接失效反馈

官方服务：

资源简介：

这是我们的论文'Mixture-of-Visual-Thoughts: 探索上下文自适应推理模式选择用于通用视觉推理'的训练数据，包括两种思考模式的数据：基于文本的思考和视觉定位的思考，以及包含几何、对象计数、OCR、图表、定位、科学等方面的问题的数据。

创建时间：

2025-10-18

原始信息汇总

Mixture-of-Visual-Thoughts Training Data 数据集概述

基本信息

许可证：Apache-2.0
语言：英语
数据规模：10M到100M之间

数据来源

该数据集为论文《Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning》的训练数据
论文链接：https://arxiv.org/pdf/2509.22746
详细说明请参考GitHub仓库：https://github.com/Future-Living-Lab/mixture-of-visual-thoughts

数据组成

1. SFT数据（监督微调）

包含两种思维模式：
- 基于文本的思考
- 基于视觉的思考（带边界框标注）

2. RL数据（强化学习）

涵盖多种问题类型：
- 几何问题
- 物体计数
- OCR（光学字符识别）
- 图表分析
- 视觉定位
- 科学问题

数据准备步骤

下载数据集： bash huggingface-cli download --repo-type dataset --resume-download ZejunLi/MoVT-Train --local-dir MoVT-Train --local-dir-use-symlinks False
解压图像文件： bash cd MoVT-Train cat SFT/sft_images_* > sft_images.zip unzip SFT/sft_images.zip -d SFT/ unzip RL/rl_images.zip -d RL/

搜集汇总

数据集介绍

构建方式

在视觉推理研究领域，MoVT-Train数据集通过精心设计的多模态学习框架构建而成。该数据集整合了监督微调与强化学习两大模块，其中监督微调部分涵盖文本推理和视觉定位两种思维模式，后者通过边界框标注实现空间关系的精确捕捉；强化学习模块则针对几何分析、物体计数、光学字符识别等多样化任务场景生成适配的训练样本。数据采集过程融合了结构化标注与动态问题生成技术，确保推理路径的完整性与上下文适应性。

特点

该数据集的核心特征体现在其混合推理模式的架构设计上。文本思维模式侧重于语言逻辑的推演，而视觉接地思维则通过边界框坐标将抽象概念与图像空间位置建立映射。数据集覆盖几何推理、科学问答等十余种专业领域，其规模达到千万级样本量，且所有视觉数据均经过多轮清洗与对齐处理。这种多模态交织的特性使得模型能够根据问题语境自主选择最优推理路径，显著提升复杂场景下的泛化能力。

使用方法

研究者可通过HuggingFace官方工具链快速部署该数据集，使用huggingface-cli指令指定数据集仓库即可完成下载。本地解压过程中需注意图像文件的合并与路径配置，监督微调模块的图像需通过压缩包拼接后解压至指定目录，强化学习模块则直接解压即可。数据加载后可按思维模式分类调用，文本推理数据可直接输入语言模型，视觉定位数据则需配合目标检测框架处理边界框信息，实现端到端的多模态训练流程。

背景与挑战

背景概述

视觉推理作为多模态人工智能的核心研究方向，致力于解决机器对图像内容进行深度语义理解与逻辑推演的问题。MoVT-Train数据集由Future Living Lab团队于2025年创建，其核心创新在于提出视觉思维混合框架，通过文本推理与视觉定位双模态的协同机制，突破传统单一路径推理的局限性。该数据集通过构建上下文自适应推理模式选择机制，为复杂视觉场景下的几何分析、目标计数、光学字符识别等任务提供了统一的学习范式，显著推进了通用视觉推理系统的认知边界与泛化能力。

当前挑战

通用视觉推理领域长期面临模态割裂与场景适配的瓶颈，传统方法难以在文本描述与空间定位之间建立动态关联。MoVT-Train在构建过程中需攻克多源数据对齐的技术难题，包括跨模态标注的一致性校验、边界框与文本描述的语义映射，以及异构任务（如科学图表解析与实物 grounding）的表示统一。此外，强化学习数据的采集需要平衡不同推理任务的分布密度，确保模型在几何计算与符号识别等差异化场景中均能保持稳定的推理性能。

常用场景

经典使用场景

在视觉推理领域，MoVT-Train数据集通过融合文本思维与视觉锚定思维两种推理模式，为多模态大语言模型提供了丰富的训练基础。该数据集特别适用于需要上下文自适应推理的复杂视觉任务，例如同时处理几何分析、物体计数和光学字符识别等跨模态问题，有效模拟了人类在视觉认知过程中灵活切换思维策略的机制。

衍生相关工作

基于该数据集提出的混合视觉思维范式，已催生出系列面向细粒度视觉推理的延伸研究。例如在视觉问答系统中构建动态路由网络，以及针对科学图表理解的层次化推理框架。这些工作通过继承数据集的模态交互机制，进一步拓展了多模态预训练模型在专业领域的应用边界。

数据集最近研究