SwimBird-SFT-92K
收藏arXiv2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/Accio-Lab/SwimBird-SFT-92K
下载链接
链接失效反馈官方服务:
资源简介:
SwimBird-SFT-92K是由阿里巴巴集团·Accio团队构建的多模态推理微调数据集,旨在支持可切换推理模式的训练。该数据集包含92,300条样本,涵盖纯文本、纯视觉及视觉-文本交织三种推理模式,数据源自Zebra-CoT、ThinkMorph、MathCanvas和OpenMMReasoner等多样化基准。通过系统性筛选和分类策略,数据集确保了不同视觉依赖程度的任务覆盖,包括视觉搜索、空间导航、几何推理等复杂场景。其核心价值在于突破传统固定推理模式的局限,为动态自适应多模态推理提供训练基础,显著提升模型在视觉密集型任务和文本逻辑任务中的综合表现。
SwimBird-SFT-92K is a multimodal reasoning fine-tuning dataset constructed by the Accio Team of Alibaba Group, designed to support training with switchable reasoning modes. This dataset contains 92,300 samples, covering three reasoning modes: pure text, pure vision, and visual-text interleaved. Its data is sourced from diverse benchmarks including Zebra-CoT, ThinkMorph, MathCanvas, and OpenMMReasoner. Through systematic screening and classification strategies, the dataset ensures coverage of tasks with varying degrees of visual dependence, including complex scenarios such as visual search, spatial navigation, and geometric reasoning. Its core value lies in breaking through the limitations of traditional fixed reasoning modes, providing a training foundation for dynamically adaptive multimodal reasoning, and significantly improving the comprehensive performance of models in visually intensive tasks and textual logical reasoning tasks.
提供机构:
华中科技大学; 阿里巴巴集团·Accio团队
创建时间:
2026-02-06
搜集汇总
数据集介绍

构建方式
在构建SwimBird-SFT-92K数据集时,研究者采用了一种系统化的推理模式筛选策略,旨在覆盖文本、视觉及二者交织的多种推理模式。该过程首先从Zebra-CoT、ThinkMorph和MathCanvas等现有多模态推理数据源中收集原始样本,这些样本包含中间思维图像。随后,通过评估模型在仅使用原始输入与额外提供视觉提示时的表现差异,过滤掉那些无需视觉辅助即可正确解答的简单实例。对于保留的样本,依据其视觉依赖程度,利用pass@8评分机制将其分类为视觉主导或视觉-文本交织模式,并补充来自OpenMMReasoner的纯文本推理数据,最终形成一个包含约9.2万条样本、均衡涵盖三种推理模式的监督微调数据集。
使用方法
SwimBird-SFT-92K数据集主要用于训练具备可切换推理能力的多模态大语言模型。在使用时,模型通过统一的混合自回归框架进行训练,其中文本推理部分采用标准的下一词预测损失,而视觉推理部分则采用下一嵌入预测的均方误差损失。训练过程中,模型学习识别特殊的模态分隔标记,从而在推理阶段能够依据输入问题动态决定进入纯文本、纯视觉或交织推理模式。该数据集使模型能够灵活分配视觉隐状态的计算资源,在文本逻辑任务中避免冗余的视觉步骤,在视觉密集任务中则增强空间感知与细节保持能力。
背景与挑战
背景概述
随着多模态大语言模型在视觉与语言融合领域取得显著进展,其推理能力逐渐成为研究焦点。然而,现有模型多依赖于纯文本的思维链进行推理,在处理视觉密集型任务时面临瓶颈。由华中科技大学与阿里巴巴集团Accio团队于2026年提出的SwimBird-SFT-92K数据集,旨在解决多模态推理中模式僵化的问题。该数据集通过系统化的推理模式筛选策略构建,覆盖了纯文本、纯视觉及视觉-文本交错三种推理模式,为训练能够动态切换推理模式的多模态大语言模型提供了关键数据支持。其核心研究问题在于如何使模型能够根据查询内容自适应地选择最合适的推理模态,从而在保持文本逻辑推理能力的同时,显著提升视觉密集任务的性能。
当前挑战
SwimBird-SFT-92K数据集致力于解决多模态推理中模态不匹配的核心挑战。在领域问题层面,传统多模态思维链框架采用固定的推理模式模板,无法根据查询的视觉依赖程度动态调整,导致在处理文本中心查询时引入冗余的视觉思维干扰符号推理,或在处理视觉密集查询时因缺乏适当的潜在视觉工作空间而性能受限。在构建过程中,挑战主要在于如何系统地从现有多模态思维链数据中筛选和标注出高质量的、涵盖三种推理模式的样本。这需要设计有效的评估策略来量化中间视觉思维图像对问题解决的增益,并准确地将样本分类为纯视觉、交错或纯文本模式,以确保数据集的多样性与平衡性,为模型学习查询自适应的模式切换能力奠定基础。
常用场景
经典使用场景
在视觉语言模型研究领域,SwimBird-SFT-92K数据集主要用于训练和评估具备动态推理模式切换能力的多模态大语言模型。该数据集通过系统化的标注策略,将样本划分为纯文本推理、纯视觉推理以及视觉-文本交错推理三种模式,为模型提供了学习如何根据输入查询自适应选择最合适推理路径的监督信号。其经典应用场景在于解决传统多模态推理框架中存在的模态不匹配问题,即模型能够避免在文本密集型任务中引入冗余的视觉思考步骤,同时在视觉密集型任务中有效利用连续的潜在视觉表征进行空间推理。
解决学术问题
SwimBird-SFT-92K数据集旨在解决多模态推理研究中的一个核心瓶颈:固定推理模式导致的模态不匹配。传统方法通常采用预设的纯文本思维链、纯视觉思维链或固定交替模式,这迫使模型在处理异构查询时使用不恰当的推理模态,从而损害性能。该数据集通过提供覆盖三种推理模式的多样化监督数据,使模型能够学习动态切换,从而在保持文本逻辑推理能力的同时,显著提升在迷宫求解、细粒度视觉搜索、几何问题等视觉密集型任务上的表现。其意义在于推动了多模态推理从静态模板向查询自适应范式的转变。
实际应用
在实际应用层面,基于SwimBird-SFT-92K训练的动态推理模型能够广泛应用于需要复杂多模态理解与决策的场景。例如,在医疗影像分析中,模型可针对病灶定位任务切换到视觉密集型推理模式,利用潜在视觉表征进行精确的空间分析;在教育领域的图解数学题解答中,模型可根据问题复杂度在符号计算与视觉空间推理间灵活切换。这种自适应能力也适用于自动驾驶的环境感知、工业质检中的缺陷识别,以及交互式机器人对复杂指令的理解与执行,提升了AI系统在真实世界复杂任务中的鲁棒性与准确性。
数据集最近研究
最新研究方向
在视觉-语言多模态推理领域,SwimBird-SFT-92K数据集正推动着自适应推理模式的前沿探索。该数据集通过系统化的标注策略,构建了涵盖纯文本、纯视觉及视觉-文本交错三种推理模式的高质量监督微调样本,旨在解决传统多模态大语言模型中固定推理模板导致的模态失配问题。当前研究热点聚焦于如何使模型能够根据查询的视觉密集度与逻辑复杂性,动态选择最合适的内部计算形式,从而在保持文本逻辑推理能力的同时,显著提升对高分辨率视觉理解、空间导航等视觉密集型任务的性能。这一方向不仅挑战了现有多模态思维链框架的刚性设计假设,也为构建更具通用性和鲁棒性的多模态智能体奠定了关键的数据基础,对推动感知与推理的真正融合具有深远意义。
相关研究论文
- 1SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs华中科技大学; 阿里巴巴集团·Accio团队 · 2026年
以上内容由遇见数据集搜集并总结生成



