OpenR1-Math-220K

Name: OpenR1-Math-220K
Creator: 南洋理工大学; 阿里巴巴云计算
Published: 2026-01-30 02:07:39
License: 暂无描述

arXiv2026-01-30 更新2026-02-02 收录

下载链接：

https://github.com/w-yibo/VTC-R1

下载链接

链接失效反馈

官方服务：

资源简介：

OpenR1-Math-220K是由DeepSeek-R1生成的大规模长上下文数学推理语料库，包含22万条复杂数学问题的多步推理轨迹。该数据集通过将冗长的文本推理过程分割为片段并渲染为紧凑图像，实现3.4倍的token压缩率，显著降低了视觉语言模型处理长序列的计算开销。其构建过程采用轻量级渲染技术将文本转换为高信息密度的视觉表征，适用于数学推理、代码生成等需要保留细粒度逻辑信息的场景，为长上下文推理的效率瓶颈提供了创新解决方案。

OpenR1-Math-220K is a large-scale long-context mathematical reasoning corpus generated by DeepSeek-R1, containing 220,000 multi-step reasoning traces of complex mathematical problems. This dataset achieves a 3.4x token compression rate by splitting lengthy textual reasoning processes into segments and rendering them into compact images, significantly reducing the computational overhead of visual language models when processing long sequences. Its construction adopts lightweight rendering technology to convert text into high-information-density visual representations, making it suitable for scenarios requiring retention of fine-grained logical information such as mathematical reasoning and code generation, providing an innovative solution to the efficiency bottleneck of long-context reasoning.

提供机构：

南洋理工大学; 阿里巴巴云计算

创建时间：

2026-01-30

原始信息汇总

VTC-R1 数据集概述

数据集基本信息

数据集名称：VTC-R1
核心主题：Vision-Text Compression for Efficient Long-Context Reasoning
发布状态：已发布
发布日期：2026年1月30日

数据集内容与用途

主要内容：用于高效长上下文推理的视觉-文本压缩数据集。
主要用途：用于训练和评估VTC-R1模型，支持长上下文推理任务。

数据集格式与结构

数据格式：遵循ShareGPT格式。
关键字段：
- messages：消息内容。
- images：图像数据。
角色标签：
- role_tag: "role"
- content_tag: "content"
- user_tag: "user"
- assistant_tag: "assistant"
- system_tag: "system"

评估基准

数据集支持在以下基准上进行模型评估：

gsm8k
math500
gpqa_d
aime25
amc23

训练框架

主要训练工具：LLaMA-Factory
训练配置文件示例：vtcr1_glyph_full_sft.yaml

引用信息

bibtex @misc{wang2026vtcr1visiontextcompressionefficient, title={VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning}, author={Yibo Wang and Yongcheng Jing and Shunyu Liu and Hao Guan and Rong-cheng Tu and Chengyu Wang and Jun Huang and Dacheng Tao}, year={2026}, eprint={2601.22069}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.22069}, }

搜集汇总

数据集介绍

构建方式

在长上下文推理效率面临显著挑战的背景下，OpenR1-Math-220K数据集的构建采用了创新的视觉-文本压缩范式。该数据集源自DeepSeek-R1模型生成的大规模数学问题求解轨迹，通过对每个长推理轨迹进行智能分段处理，并将已完成的前序推理片段通过轻量级渲染技术转化为紧凑的图像表示。这一过程形成了包含约10.6万个图像-文本配对实例的训练语料，实现了高达3.4倍的令牌压缩比，为视觉语言模型学习迭代推理提供了结构化的监督数据。

使用方法

在应用层面，该数据集主要用于训练视觉语言模型掌握VTC-R1推理范式。使用时，模型在每一推理迭代中接收原始问题与渲染自前序步骤的图像集合，并生成当前步骤的推理文本。训练过程采用监督微调方式，使模型学会将图像作为压缩的上下文记忆进行条件生成。在推理阶段，模型可动态调整迭代次数，通过图像反馈机制实现多步推理，在保持高准确率的同时显著提升端到端推理效率，为数学问题求解等复杂任务提供了可扩展的解决方案。

背景与挑战

背景概述

OpenR1-Math-220K数据集于2025年由Hugging Face发布，作为OpenR1项目的重要组成部分，旨在推动长上下文推理能力的研究。该数据集基于DeepSeek-R1模型生成，包含约22万道数学问题及其详细推理轨迹，覆盖了从基础算术到高等竞赛数学的广泛领域。其核心研究问题聚焦于如何高效处理长序列推理任务，以应对Transformer架构在长上下文场景下面临的二次复杂度增长瓶颈。该数据集的构建为视觉-文本压缩（VTC）等新兴高效推理范式提供了关键训练资源，显著促进了多模态大语言模型在数学推理任务上的性能优化与效率提升。

当前挑战

OpenR1-Math-220K数据集致力于解决数学长上下文推理中的效率挑战，其核心问题在于如何压缩冗长的推理轨迹同时保留细粒度逻辑信息。构建过程中的主要挑战包括：第一，原始推理轨迹的语义完整性维护，需在分割与渲染为图像时避免关键推导步骤的丢失；第二，视觉-文本压缩比与解码精度的平衡，确保高达3.4倍的令牌压缩后模型仍能准确理解数学符号与结构；第三，数据标注的一致性保障，由于依赖自动生成与验证流程，需消除轨迹中的逻辑谬误与格式噪声。这些挑战共同指向了高效推理中信息密度与计算开销之间的根本矛盾。

常用场景

经典使用场景

在数学推理领域，OpenR1-Math-220K数据集作为VTC-R1方法的核心训练资源，其经典使用场景在于支撑视觉-文本压缩范式的迭代式长上下文推理。该数据集将DeepSeek-R1生成的复杂数学问题解答轨迹分割为多个推理片段，并将前序片段渲染为紧凑的图像序列，构建出图像-文本配对数据。这种设计使得视觉语言模型能够以光学记忆的形式高效编码历史推理信息，在MATH500、AIME25等数学基准测试中实现多步骤推理，同时显著降低计算开销。

解决学术问题

该数据集有效解决了长上下文推理中的计算效率瓶颈问题。传统Transformer架构在处理长序列时面临二次复杂度增长，导致推理速度下降和内存消耗激增。OpenR1-Math-220K通过视觉-文本压缩机制，将文本推理轨迹转化为高密度视觉表示，实现了3.4倍的令牌压缩比，使模型能在保留细粒度信息的同时突破训练上下文长度限制。这为数学推理、代码生成等需要复杂逻辑推导的任务提供了可扩展的高效解决方案，推动了高效推理范式的发展。

实际应用

在实际应用层面，基于OpenR1-Math-220K训练的VTC-R1系统已展现出显著的工程价值。在数学竞赛问题求解、科学领域复杂问答等场景中，该系统实现了端到端推理延迟2.7倍的加速，同时保持或提升解题准确率。轻量级的渲染机制仅增加约4%的额外开销，生成的图像平均大小约0.1MB，具备实际部署的可行性。这种高效推理能力使其适用于教育辅助系统、科研分析工具等需要实时处理复杂逻辑任务的工业应用场景。

数据集最近研究