DeepVision-103K

github2026-02-21 更新2026-02-25 收录

下载链接：

https://github.com/SKYLENAGE-AI/DeepVision-103K

下载链接

链接失效反馈

官方服务：

资源简介：

DeepVision-103K是一个用于多模态推理的大规模、视觉多样且可验证的数学数据集，涵盖K12教育中的几何、代数、概率与统计等多个领域，具有丰富的视觉元素和结构化注释。

DeepVision-103K is a large-scale, visually diverse and verifiable mathematical dataset tailored for multimodal reasoning. It covers multiple fields including geometry, algebra, probability and statistics in K12 education, and is equipped with rich visual elements and structured annotations.

创建时间：

2026-02-14

原始信息汇总

DeepVision-103K 数据集概述

基本信息

数据集名称: DeepVision-103K
发布日期: 2026年2月16日
数据地址: https://huggingface.co/datasets/skylenage/DeepVision-103K
代码仓库: https://github.com/SKYLENAGE-AI/DeepVision-103K
论文地址: https://huggingface.co/papers/2602.16742

数据集简介

DeepVision-103K 是一个为大型多模态模型推理设计的数据集，从多样化的真实世界K12教育资料中整理而来。其核心目标是推进通过强化学习与可验证奖励进行多模态推理。

核心特征

1. 视觉多样性

数据集涵盖以下视觉元素类别：

平面几何
立体几何
分析图
数据图表
示意图
数学语境中的现实物品

2. 广泛覆盖的数学领域

数据集跨越以下数学分支：

几何
代数
概率与统计
基础数学技能

3. 丰富的数据格式

每个样本包含结构化标注以支持各种下游任务：

问题与图像: 问题陈述和对应图像。
最终答案: 一个唯一的、可验证的答案，支持在RLVR中进行基于规则的奖励计算。
通过率: 在模型推演过程中获得正确响应的比例。
主题: 数学分支的层级分类。
知识点: 所需的特定数学概念、定理或技巧。
视觉元素: 图像中描绘的几何或图形对象。

数据构建流程

一个三阶段的流程将多样但嘈杂的真实世界K12问题转化为结构化和可验证的问答对：

有效性过滤: 移除不适合强化学习的问题（基于证明的、描述性的、多答案问题）。
难度过滤: 通过模型推演通过率校准样本难度。
查询正确性验证: 使用 Gemini-3-Flash 验证图像-问题对和答案。

性能表现

在 DeepVision-103K 上训练能在多模态数学推理和通用多模态基准测试上取得顶级性能。

基准测试结果示例

基准测试	Qwen3-VL-8B-Instruct (准确率 / 令牌数)	Qwen3-VL-8B-DeepVision (准确率 / 令牌数)	Qwen3-VL-8B-Thinking (准确率 / 令牌数)
WeMath	79.36 / 1428	85.11 / 2010	84.54 / 3754
MathVision	51.44 / 4288	55.49 / 5738	57.89 / 8970
MathVerse	67.38 / 1572	72.46 / 2714	72.84 / 4665
LogicVista	61.16 / 1769	64.73 / 2716	64.73 / 6115
MMMU_val	67.66 / 2099	71.33 / 2758	69.33 / 5082
MMMU_Pro	67.69 / 2170	70.29 / 2895	70.29 / 5037
M³CoT	70.83 / 1029	71.61 / 1294	71.31 / 2761
平均	66.50 / 2333	70.15 / 3173	70.13 / 4995

训练与评估工具包

训练算法: 使用 GSPO (https://arxiv.org/abs/2507.18071) 进行训练。
评估: 使用 vLLM (https://github.com/vllm-project/vllm) 进行异步批量评估。
训练代码: 基于 verl (https://github.com/volcengine/verl) 构建。
实验跟踪: 使用 swanlab (https://github.com/SwanHubX/SwanLab)。

引用

bibtex @misc{sun2026deepvision103kvisuallydiversebroadcoverage, title={DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning}, author={Haoxiang Sun and Lizhen Xu and Bing Zhao and Wotao Yin and Wei Wang and Boyu Yang and Rui Wang and Hu Wei}, year={2026}, eprint={2602.16742}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.16742}, }

搜集汇总

数据集介绍

构建方式

在数学教育领域，高质量的视觉数据对于推动多模态推理模型的发展至关重要。DeepVision-103K的构建采用了一套严谨的三阶段流程，旨在将现实世界中多样但嘈杂的K12教育问题转化为结构化且可验证的问答对。首先通过有效性筛选，剔除不适合强化学习的证明型、描述性或多元答案问题；随后借助模型推演通过率对样本难度进行校准；最终利用Gemini-3-Flash验证图像-问题对的匹配度与答案正确性，确保数据在视觉多样性与逻辑严谨性之间取得平衡。

特点

该数据集在视觉多样性、学科覆盖与数据丰富性方面展现出显著优势。其视觉元素涵盖平面几何、立体几何、解析图表、数据统计图、示意图及现实场景中的数学对象，类型丰富度超越现有开源资源。学科内容横跨几何、代数、概率统计与基础数学技能，形成层次化的知识体系。每个样本均包含问题、图像、可验证的最终答案、通过率、主题分类、知识点与视觉元素标注，这种结构化设计为多模态推理任务提供了坚实的支撑。

使用方法

为便于研究者使用，DeepVision-103K提供了完整的训练与评估工具链。训练基于GSPO算法与GRPO优势估计，支持单节点与多节点配置，用户可通过修改脚本中的模型路径、数据路径等参数快速启动。评估阶段则提供异步批量推理脚本，并集成基于规则的数学验证与GPT-5-mini二次评判流程，以准确计算模型在多模态数学推理及通用多模态基准测试上的性能。数据以Parquet格式发布，可直接通过Hugging Face平台加载使用。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态推理能力，尤其是结合视觉与数学的复杂问题求解，已成为前沿研究的核心挑战。DeepVision-103K数据集于2026年2月由SKYLENAGE-AI团队的研究人员发布，旨在为大规模多模态语言模型（LMM）的推理训练提供高质量、可验证的数学问题资源。该数据集从现实世界K12教育场景中精心筛选，覆盖几何、代数、概率统计等多个数学分支，并包含了平面几何、立体几何、分析图表、数据图、示意图及现实物品等丰富的视觉元素。其核心研究问题聚焦于如何通过强化学习与视觉推理相结合的方法，提升模型在需要视觉理解的数学问题上的泛化与求解能力。该数据集的构建为多模态数学推理领域设立了新的基准，其训练出的模型在WeMath、MathVision等多个权威评测集上取得了领先性能，显著推动了该领域从单一模态向深度融合的范式转变。

当前挑战

DeepVision-103K数据集致力于解决多模态数学推理这一复杂领域问题，其核心挑战在于如何让模型精准理解并融合图像中的视觉信息与文本中的数学逻辑，以进行正确的推理和计算。具体而言，该领域问题的挑战体现在视觉元素的多样性与抽象性，例如图表中的数据解读、几何图形的空间关系解析，以及现实场景到数学模型的映射，这些都对模型的跨模态对齐与符号推理能力提出了极高要求。在数据集构建过程中，研究团队面临三大主要挑战：首先是从海量、嘈杂的真实教育资料中进行有效筛选，剔除不适用于强化学习训练的证明型、描述型或多答案问题；其次是通过模型推演准确校准样本难度，确保数据集的难度分布合理；最后是保证图像-问题对与答案的准确性，这需要借助先进的多模态模型进行严格的正确性验证，以确保最终数据的高质量和可验证性。

常用场景

经典使用场景

在人工智能与教育技术的交叉领域，多模态数学推理正成为推动智能教育系统发展的核心驱动力。DeepVision-103K数据集以其视觉多样性和广泛覆盖性，为训练大型多模态模型提供了经典场景。该数据集常用于模型在几何、代数、概率统计等数学分支上的端到端推理能力评估与优化，通过结合图像与文本问题，模拟真实K12教育环境中的解题过程，从而系统性地提升模型对复杂视觉数学问题的理解和解答精度。

实际应用

在实际教育科技应用中，DeepVision-103K能够赋能智能辅导系统与自适应学习平台。通过集成该数据集训练的模型，系统可实时解析学生上传的含图像数学题目，提供分步推理与精准解答，辅助教师进行个性化教学。此外，在在线教育内容生成与质量评估中，该数据集亦能用于构建自动化的题目难度校准与视觉多样性增强工具，提升教育资源的生产效率与适配性。

衍生相关工作

DeepVision-103K的发布催生了一系列围绕多模态数学推理的经典研究工作。基于其数据构建的强化学习优化框架，如GSPO算法在视觉推理任务上的应用，进一步提升了模型训练效率。同时，该数据集促进了如MathVision、MathVerse等专项评测基准的完善，并启发了对视觉元素分类、答案可验证性机制等细分方向的深入探索，为后续大规模多模态数学数据集的构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集