FineReason
收藏Hugging Face2025-10-25 更新2025-10-26 收录
下载链接:
https://huggingface.co/datasets/OpenDataArena/FineReason
下载链接
链接失效反馈官方服务:
资源简介:
FineReason是一个综合性的多模态推理数据集,设计用于增强大型多模态模型在视觉推理方面的能力,涵盖了数学、STEM、视觉谜题和复杂图表推理。每个例子都包括一个从Qwen3-VL-235B-a22B-thinking中提炼出的推理风格的答案,促进了长链、可解释的多模态推理。
创建时间:
2025-10-25
原始信息汇总
FineReason 数据集概述
数据集基本信息
FineReason是一个多模态推理数据集,专注于增强大型多模态模型在视觉推理方面的能力,涵盖数学、STEM、视觉谜题和复杂图表推理等领域。
数据集配置
Euclid30K
- 样本数量: 27,111
- 特征字段:
- question: 字符串类型
- answer: 字符串类型
- id: 整型
- qwen3vl_235b_thinking_response: 字符串类型
- image: 图像类型
- 数据集大小: 1,192,096,433.067字节
- 下载大小: 902,083,827字节
FineVision-ai2d_merged
- 样本数量: 2,446
- 特征字段:
- id: 整型
- image: 图像类型
- question: 字符串类型
- solution: 字符串类型
- data_source: 字符串类型
- qwen3vl_235b_thinking_response: 字符串类型
- 数据集大小: 116,702,644.02字节
- 下载大小: 95,493,279字节
FineVision-geo170k_qa_
- 样本数量: 12,101
- 特征字段:
- id: 整型
- image: 图像类型
- question: 字符串类型
- solution: 字符串类型
- data_source: 字符串类型
- qwen3vl_235b_thinking_response: 字符串类型
- 数据集大小: 122,879,699.87字节
- 下载大小: 55,308,042字节
FineVision-geometry3k_mathv360k_
- 样本数量: 9,724
- 特征字段:
- id: 整型
- image: 图像类型
- question: 字符串类型
- solution: 字符串类型
- data_source: 字符串类型
- qwen3vl_235b_thinking_response: 字符串类型
- 数据集大小: 150,826,488.88字节
- 下载大小: 98,952,874字节
FineVision-visualwebinstruct_filtered_
- 样本数量: 261,436
- 特征字段:
- id: 整型
- image: 图像类型
- question: 字符串类型
- solution: 字符串类型
- data_source: 字符串类型
- qwen3vl_235b_thinking_response: 字符串类型
- 数据集大小: 9,489,076,410.32字节
- 下载大小: 7,996,543,211字节
mmopenr1-8k
- 样本数量: 7,428
- 特征字段:
- id: 整型
- question: 字符串类型
- solution: 字符串类型
- image: 图像类型
- qwen3vl_235b_thinking_response: 字符串类型
- 数据集大小: 547,553,781.36字节
- 下载大小: 399,068,375字节
数据生成方法
所有子数据集通过从Qwen3-VL-235B-a22B-thinking模型蒸馏长链答案,统一采用共同的推理风格。该模型被提示生成结构化、可解释且基于步骤的推理过程。
数据格式
每个数据条目包含:
- 唯一标识符
- 文本问题
- PIL图像
- 从Qwen3-VL-235B-a22B-thinking蒸馏的推理风格答案
搜集汇总
数据集介绍

构建方式
在视觉推理研究领域,数据质量直接影响模型性能。FineReason通过整合多个专业子数据集构建而成,采用统一的推理风格蒸馏方法,利用Qwen3-VL-235B-a22B-thinking模型为每个样本生成结构化、可解释的推理过程。该过程要求模型基于图像和问题内容,按照<think>和<answer>的框架进行逐步推理,确保逻辑链条的完整性和视觉信息的充分利用。这种构建方式不仅统一了不同来源数据的表达风格,还显著提升了推理过程的可追溯性。
特点
FineReason数据集展现出多模态融合的显著特征,涵盖数学、STEM、视觉谜题和复杂图表推理等多个专业领域。数据集包含超过30万条样本,每个样本均配备图像、问题文本以及经过精心设计的推理式回答。特别值得关注的是,所有推理响应均采用统一的思维模式,包含问题分析、关键信息提取、公式原理应用、分步计算和验证等完整环节。这种结构化设计为研究视觉推理的内在机制提供了丰富素材。
使用方法
针对多模态推理模型的训练需求,FineReason提供了标准化的使用流程。研究人员可直接加载数据集中的图像和问题对,利用预生成的推理响应作为监督信号进行模型训练。数据集支持端到端的视觉语言联合学习,特别适用于需要长链条推理能力的模型开发。在实际应用中,建议将数据集划分为训练和验证集,通过对比模型输出与标准推理过程的差异来评估性能。这种使用方法有助于推动可解释性多模态推理研究的发展。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,视觉推理任务对模型提出了超越简单感知的深层认知要求。FineReason数据集应运而生,旨在通过整合几何、STEM及视觉谜题等领域的多样化数据,系统性地提升大型多模态模型的逻辑推理能力。该数据集由研究团队基于Qwen3-VL-235B模型的思维响应进行知识蒸馏,构建了包含27万余样本的大规模语料库,其创新性地将数学符号理解与空间关系推理相结合,为多模态推理研究提供了关键基础设施。
当前挑战
在解决复杂视觉推理问题时,模型需同步处理图像语义解析与符号逻辑运算的双重挑战,尤其当面对几何证明题中隐含的条件约束或科学图表中的多模态关联时,传统方法往往难以保持推理链的连贯性。数据构建阶段面临标注一致性与逻辑完整性的平衡难题,既要保证来自六个子数据集的知识蒸馏质量,又需在长链推理中维持视觉依据与文本推导的严格对应,这种跨模态对齐的精确度直接决定了推理轨迹的可解释性。
常用场景
解决学术问题
该数据集有效缓解了多模态推理领域的数据稀缺困境。通过Qwen3-VL-235B模型生成的标准化思维链标注,解决了传统数据集中推理样本分布不均、标注质量参差的核心难题。其长链条可解释推理范式为研究视觉与语言模态的深度融合机制提供了理想实验载体,显著推进了基于数据驱动的多模态推理模型优化研究,为认知启发的人工智能发展提供了关键数据支撑。
衍生相关工作
基于FineReason的统一推理框架,衍生出多个具有影响力的研究工作。其中包括针对几何证明题的符号推理增强模型、融合视觉语义的数学解题系统,以及面向科学图解的多步骤推理验证架构。这些成果通过借鉴数据集的思维链蒸馏方法,在AAAI、EMNLP等顶级会议上发表了系列重要论文,形成了以可解释多模态推理为核心的技术流派。
以上内容由遇见数据集搜集并总结生成



