DeepVision-103K

Hugging Face2026-02-19 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/skylenage/DeepVision-103K

下载链接

链接失效反馈

官方服务：

资源简介：

DeepVision-103K 是一个专为多模态推理设计的大规模数学数据集，源自多样化的真实世界 K12 教育资源。其主要特点包括：1. 视觉多样性：涵盖平面几何、立体几何、分析图表、数据图表、示意图和数学上下文中的真实物品。2. 广泛覆盖：包括几何、代数、概率与统计以及基础数学技能。3. 丰富的数据格式：每个样本包含结构化注释，支持多种下游任务，如问题与图像、最终答案、通过率、主题、知识点和视觉元素。数据集通过三阶段流程从嘈杂的真实世界问题转化为结构化且可验证的问答对，包括有效性过滤、难度过滤和查询正确性验证。DeepVision-103K 在训练多模态数学推理和通用多模态基准测试中表现出色。

DeepVision-103K is a large-scale mathematical dataset specifically designed for multimodal reasoning, sourced from diverse real-world K-12 educational resources. Its main features include: 1. Visual diversity: Covers plane geometry, solid geometry, analytical charts, data charts, schematic diagrams, and real objects in mathematical contexts. 2. Broad coverage: Encompasses geometry, algebra, probability and statistics, as well as basic mathematical skills. 3. Rich data formats: Each sample contains structured annotations that support multiple downstream tasks, such as question-image pairs, final answers, passing rates, topics, knowledge points, and visual elements. The dataset is transformed from noisy real-world problems into structured and verifiable question-answer pairs via a three-stage pipeline, including validity filtering, difficulty filtering, and query correctness verification. DeepVision-103K delivers outstanding performance in training multimodal mathematical reasoning models and general multimodal benchmark evaluations.

创建时间：

2026-02-14

搜集汇总

数据集介绍

构建方式

在数学多模态推理领域，数据质量直接影响模型性能。DeepVision-103K的构建采用严谨的三阶段流水线，首先从现实世界K12教育资料中筛选原始问题，通过有效性过滤剔除不适用于强化学习的证明类、描述类或多答案问题。随后基于模型推演通过率对样本难度进行校准，确保数据分布均衡。最终利用Gemini-3-Flash模型对图像-问题对及参考答案进行自动化验证，将原始噪声数据转化为结构清晰、答案可验证的高质量问答对，为强化学习提供可靠基础。

特点

该数据集在视觉多样性方面表现突出，涵盖平面几何、立体几何、解析图表、数据统计图、示意图及现实物品数学场景六大类别，每类包含的视觉元素类型均超越现有开源数据集。其数学内容覆盖代数、几何、概率统计及基础数学技能四大领域，形成层次分明的知识体系。每个样本均配备结构化标注，包含问题描述、对应图像、唯一可验证答案、模型通过率、主题分类、知识点标签及视觉元素解析，为多任务学习提供丰富语义信息。

使用方法

研究人员可通过HuggingFace平台直接加载数据集，其包含visual_logic与math两种配置，分别对应逻辑推理与数学问题子集。训练时需配置指定Python环境，安装mathverify验证工具及qwen_vl_utils等依赖库。官方提供基于GSPO算法的单节点与多节点训练脚本，支持在8至64GPU集群上进行强化学习训练。评估阶段采用异步批处理推理与规则验证相结合的方式，先通过vLLM框架生成模型响应，再利用mathverify进行基于规则的自动评分，最后通过GPT-5-mini对误判案例进行二次校验，确保评估结果可靠性。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态推理能力，尤其是结合视觉与数学的复杂问题求解，已成为核心挑战之一。为应对这一挑战，SKYLENAGE-AI的研究团队于2026年2月发布了DeepVision-103K数据集。该数据集旨在为大规模多模态模型提供视觉多样、覆盖广泛且答案可验证的数学推理训练资源。其核心研究问题聚焦于如何通过强化学习与视觉推理相结合的方法，提升模型在真实世界教育场景下的数学问题解决能力。通过从K12教育资料中精心筛选与构建，该数据集不仅涵盖了从几何、代数到概率统计等多个数学分支，还引入了丰富的视觉元素类型，为多模态数学推理领域的研究设立了新的基准，并显著提升了相关模型在多个权威评测中的性能表现。

当前挑战

DeepVision-103K旨在解决多模态数学推理这一领域问题的核心挑战，即如何让模型精准理解并融合图像中的视觉信息与文本中的数学逻辑，以进行严谨的推演和计算。具体挑战包括处理视觉元素的极端多样性，如解析复杂的几何图形与数据图表，以及确保模型在面对跨领域数学问题时保持推理的准确性与一致性。在数据集构建过程中，研究者同样面临严峻挑战。原始教育资料中存在大量噪声，例如描述性过强、答案不唯一或基于证明的问题，不适合用于强化学习训练。为此，团队设计了一套包含有效性筛选、难度校准以及查询正确性验证的三阶段流水线，利用模型滚动通过率和先进的大语言模型进行双重校验，以确保最终数据样本的结构化、高质量与答案的可验证性。

常用场景

经典使用场景

在视觉与数学交叉的研究领域，DeepVision-103K数据集为多模态推理模型的训练与评估提供了核心支持。该数据集通过涵盖平面几何、立体几何、分析图表、数据图、示意图及现实物品等多种视觉元素，构建了丰富的数学问题场景。研究者通常利用其结构化标注，包括问题、图像、最终答案及知识点，来训练大型多模态模型，以提升模型在复杂视觉数学问题上的理解和推理能力，尤其在需要结合图像信息进行逻辑推导的任务中表现卓越。

实际应用

在实际应用层面，DeepVision-103K为智能教育辅助系统和自动化解题工具的开发提供了高质量数据基础。教育科技公司可利用该数据集训练模型，帮助学生通过视觉化方式理解数学概念，例如解析几何图形或数据图表中的问题。此外，在需要快速处理包含图像的数学内容（如在线学习平台或学术文档分析）的场景中，基于该数据集训练的模型能够实现高效、准确的自动问答与推理，提升人机交互的智能化水平。

衍生相关工作

围绕DeepVision-103K，学术界衍生了一系列经典研究工作，主要集中在多模态数学推理模型的优化与评估框架上。例如，基于该数据集的训练方法（如GSPO算法）被广泛应用于提升模型在WeMath、MathVision等基准测试中的性能。同时，其可验证答案的特性催生了新的规则评估工具（如mathverify），促进了自动评分系统的发展。这些工作不仅巩固了数据集在领域内的核心地位，也为后续更复杂的视觉逻辑推理任务提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集