MMFineReason-SFT-123K-Qwen3-VL-235B-Thinking

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/MMFineReason-SFT-123K-Qwen3-VL-235B-Thinking

下载链接

链接失效反馈

官方服务：

资源简介：

MMFineReason-SFT-123K 是一个经过难度筛选的多模态推理数据集，包含来自 MMFineReason-1.8M 中最具挑战性的 7% 样本（共 123,000 个）。这些样本的特点是 Qwen3-VL-4B-Thinking 模型在全部 4 次推理尝试中均失败（通过率为 0）。数据集保留了来自 Qwen3-VL-235B-A22B-Thinking 的高质量长形式推理标注，具有以下特点：1) 数据效率高，仅使用 7% 的最难样本即可达到与完整数据集相当的性能；2) 包含视觉输入（图像）和文本问题-答案对，适用于 STEM 领域的多模态推理任务；3) 每个样本包含原始问题/答案、标准化问题/答案、视觉描述、思维链推理、难度评分等丰富字段。该数据集特别适合训练需要复杂推理能力的视觉语言模型，在去除简单样本后反而能提升模型性能。

MMFineReason-SFT-123K is a difficulty-filtered multimodal reasoning dataset comprising 7% of the most challenging samples (totaling 123,000) sourced from MMFineReason-1.8M. These samples have a 0% pass rate, as the Qwen3-VL-4B-Thinking model failed all four of its reasoning attempts on each sample. The dataset retains high-quality long-form reasoning annotations from Qwen3-VL-235B-A22B-Thinking, and exhibits the following characteristics: 1. High data efficiency: Using only 7% of the most challenging samples can achieve performance comparable to that of the full MMFineReason-1.8M dataset; 2. It includes visual inputs (images) and text-based question-answer pairs, making it applicable to multimodal reasoning tasks in the STEM domain; 3. Each sample contains rich metadata fields including original question/answer, standardized question/answer, visual description, chain-of-thought reasoning, difficulty score, and others. This dataset is particularly well-suited for training visual-language models that require complex reasoning capabilities, as filtering out simple samples during its construction has been demonstrated to improve model performance relative to using the full unfiltered dataset.

创建时间：

2026-01-28

搜集汇总

数据集介绍

构建方式

在构建MMFineReason-SFT-123K数据集时，研究团队采用了基于难度的筛选策略，从庞大的MMFineReason-1.8M数据集中提取最具挑战性的样本。具体而言，他们利用Qwen3-VL-4B-Thinking模型作为难度代理，对每个样本生成四次独立响应，并计算其通过率。仅当通过率为零，即模型在所有尝试中均告失败时，该样本才被纳入此子集。这一过程最终从原始数据中萃取出约12.3万个样本，占全集的7%，确保了数据的高难度特性。

使用方法

使用MMFineReason-SFT-123K数据集时，研究者可将其直接应用于视觉语言模型的监督微调，以提升模型在复杂多模态推理任务上的性能。数据集遵循标准的多模态问答格式，包含图像、问题、答案及思维链响应等字段，便于集成到现有训练流程中。建议用户重点关注通过率为零的样本，这些样本能有效驱动模型学习深层推理模式，同时可结合一致性分析字段验证生成内容的可靠性，优化训练策略。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态推理能力成为关键瓶颈。为应对这一挑战，研究团队于2026年提出了MMFineReason-SFT-123K数据集，该数据集隶属于更广泛的MMFineReason项目。其核心研究问题聚焦于如何通过数据中心的开放方法，有效弥合视觉语言模型在复杂推理任务上的性能鸿沟。该数据集通过精心筛选原始大规模数据中难度最高的样本，旨在为模型训练提供最具信息量的信号，从而以更少的数据实现更优的性能，对推动多模态大模型在数学、科学及视觉推理等STEM领域的发展具有显著影响力。

当前挑战

该数据集致力于解决多模态复杂推理这一核心领域问题，其首要挑战在于如何精准定义并量化‘困难样本’，这要求构建超越传统准确率的评估范式。在构建过程中，研究团队面临筛选机制设计的挑战，即利用较小规模模型（Qwen3-VL-4B-Thinking）作为难度代理的可靠性与泛化性验证。此外，确保从海量数据中萃取的12.3万条样本既能覆盖多样化的推理类型（如链式思维、科学计算），又能维持标注（如来自Qwen3-VL-235B的长篇推理）的高质量与一致性，亦是构建过程中的关键难题。

常用场景

经典使用场景

在多模态推理研究领域，数据质量往往比数量更具决定性。MMFineReason-SFT-123K数据集通过筛选出Qwen3-VL-4B-Thinking模型完全无法通过的样本，构建了一个高难度挑战集。该数据集最经典的使用场景是作为视觉语言模型（VLM）的监督微调（SFT）数据，专门用于提升模型在复杂推理任务上的性能。研究者利用其中包含的链式思维（Chain-of-Thought）长文本推理标注，训练模型进行深度视觉理解和逻辑推演，尤其适用于数学、科学和STEM相关的多模态问题解答。

解决学术问题

该数据集旨在解决多模态人工智能研究中一个核心问题：如何高效地缩小模型在复杂推理任务上的能力差距。传统方法依赖海量数据，但其中大量简单样本对模型能力提升贡献有限。MMFineReason-SFT-123K通过“数据为中心”的方法，证明仅使用7%最具挑战性的样本，即可达到甚至超越使用全量数据训练的效果。这为学术界提供了关于训练数据筛选与价值评估的新范式，挑战了“数据越多越好”的固有观念，并推动了对于样本难度与模型学习效率之间关系的深入研究。

实际应用

在实际应用层面，该数据集为开发高性能的多模态助手和专家系统提供了关键训练资源。其涵盖的几何推理、科学图解和数学问题等硬样本，能够直接赋能教育科技领域的智能辅导系统，使其具备解答复杂图文题目的能力。在需要精细视觉推理的工业场景，如技术文档理解、图表数据分析或医疗影像报告生成中，基于此数据集训练的模型能展现出更可靠的深度分析和解释能力。它有效推动了视觉语言模型从感知向认知和决策的跨越。

数据集最近研究