VLM-CapCurriculum-TextReasoning-Data
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data
下载链接
链接失效反馈官方服务:
资源简介:
VLM-CapCurriculum-TextReasoning (D_text) 是一个用于视觉语言模型(VLM)分阶段后训练方法中第二阶段(Stage-2)的文本推理数据集,源自论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》(ICML 2026)。该数据集基于公开的 ORZ-Math-13k 集合精心挑选,包含纯文本的挑战性数学问题,旨在在感知(第一阶段)和视觉推理(第三阶段)的强化学习视觉推理(RLVR)阶段之间巩固模型的文本推理能力。数据规模为 13,181 条训练样本,模态为纯文本(无图像)。数据集以 JSONL 格式提供,每条记录包含以下字段:索引(index)、问题(problem)、答案(answer)、图像列表(images,为空)、来源(source)、模型预测(predictions,来自基础模型 Qwen3-VL-8B-Instruct 的 16 次 rollout)、正确性标签(correctness,对应每次 rollout 的布尔值)以及通过率(pass_rate,即正确性标签的平均值,作为样本对于基础模型的实证难度信号)。通过率可用于能力与难度课程学习实验,允许按样本难度排序数据。数据集适用于文本生成和问答任务,特别聚焦于数学推理领域。使用方式包括通过 Hugging Face datasets 库加载,并集成到 EasyR1 训练框架中。数据集遵循 Apache-2.0 许可证,用户需引用原始 ORZ-Math-13k 集合及相关论文。
VLM-CapCurriculum-TextReasoning (D_text) is a text reasoning dataset for the second stage (Stage-2) of a phased post-training method for Vision-Language Models (VLMs), derived from the paper From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models (ICML 2026). It is carefully curated from the public ORZ-Math-13k collection and contains challenging math problems in pure text format, aiming to consolidate the models text reasoning capabilities between perception (Stage-1) and visual reasoning (Stage-3) in the Reinforcement Learning Visual Reasoning (RLVR) phase. The dataset size is 13,181 training samples, with the modality being pure text (no images). It is provided in JSONL format, with each record including fields such as index, problem, answer, images (empty), source, predictions (16 rollouts from the base model Qwen3-VL-8B-Instruct), correctness (Boolean values for each rollout), and pass_rate (the average of correctness labels, serving as an empirical difficulty signal for the base model). The pass_rate can be used for ability-difficulty curriculum learning experiments, allowing data to be sorted by sample difficulty. The dataset is suitable for text generation and question-answering tasks, with a specific focus on mathematical reasoning. Usage includes loading via the Hugging Face datasets library and integration into the EasyR1 training framework. It is licensed under Apache-2.0, and users are required to cite the original ORZ-Math-13k collection and related papers.
提供机构:
UCSC-VLAA
创建时间:
2026-05-15
原始信息汇总
VLM-CapCurriculum-TextReasoning (D_text) 数据集概述
基本信息
- 数据集名称: VLM-CapCurriculum-TextReasoning (D_text)
- 许可证: Apache-2.0
- 语言: 英文
- 数据规模: 10K < n < 100K(训练集包含 13,181 条数据)
- 任务类型: 文本生成、问答
- 标签: 推理、数学、强化学习、课程学习
- 发布时间: ICML 2026
数据集来源
该数据集是 ORZ-Math-13k 的精选子集,用于视觉语言模型分阶段后训练中的第二阶段(文本推理)。相关资源:
- 论文: 即将发布
- 代码仓库: https://github.com/UCSC-VLAA/VLM-CapCurriculum
- 项目主页: https://ucsc-vlaa.github.io/VLM-CapCurriculum
- 数据集集合: https://huggingface.co/collections/UCSC-VLAA/vlm-capcurriculum-from-seeing-to-thinking-icml-2026-6a07691f944148ccb2b183b8
数据特点
- 模态: 纯文本(无图像)
- 数据格式: JSONL 文件(
textual_reasoning_difficulty_curriculum.jsonl) - 难度信号: 每个样本包含
pass_rate指标,取值范围 [0, 1],表示 Qwen3-VL-8B-Instruct 基座模型在 16 次采样中的正确率
数据模式
每条数据包含以下字段:
index: 样本索引problem: 数学问题描述(如多项式因式分解)answer: 标准答案images: 图像列表(当前为空)source: 数据来源(ORZ)predictions: 16 次采样的模型输出correctness: 对应 16 次采样的正确性布尔值pass_rate: 正确性均值,表示样本的经验难度
使用方式
python from datasets import load_dataset ds = load_dataset("UCSC-VLAA/VLM-CapCurriculum-TextReasoning", split="train") print(ds[0])
难度信号计算
predictions、correctness 和 pass_rate 通过以下流程计算:
- 对每个问题,使用 Qwen3-VL-8B-Instruct 模型进行 16 次采样
- 逐次将采样输出与标准答案对比,生成正确性布尔值
pass_rate为 16 次正确性布尔值的均值
配套数据集
UCSC-VLAA/VLM-CapCurriculum-Perception: 第一阶段感知任务(DOCCI 图像上的多项选择题)UCSC-VLAA/VLM-CapCurriculum-VisualReasoning: 第三阶段视觉推理任务(CLEVR-Math、GeoQA170K、Math PUMA、ArxivQA 混合)
引用
请同时引用上游数据集和本文:
- 上游数据集:@article{hu2025open, title={Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model}, author={Hu, Jingcheng and others}, year={2025}}
- 本文:@inproceedings{vlmcapcurriculum2026, title={From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models}, author={Juncheng Wu and Hardy Chen and Haoqin Tu and Xianfeng Tang and Freda Shi and Hui Liu and Hanqing Lu and Cihang Xie and Yuyin Zhou}, booktitle={Proceedings of the International Conference on Machine Learning (ICML)}, year={2026}}
搜集汇总
数据集介绍

构建方式
该数据集为VLM-CapCurriculum分阶段后训练方案中的第二阶段文本推理数据,旨在强化视觉语言模型在感知与视觉推理阶段之间的文本推理能力。其构建方式基于公开的ORZ-Math-13k数据集,从中精心筛选出13,181条纯文本数学难题,确保不包含任何图像信息。为嵌入难度信号,研究者利用Qwen3-VL-8B-Instruct基础模型对每个问题执行16次独立推理,并根据推理结果与标准答案的匹配度计算通过率(pass_rate),该指标作为样本经验难度的量化依据,使得数据能够按照能力×难度的课程学习范式灵活排序。最终所有样本以JSONL格式组织,每条记录包含问题、答案、多次推理预测、正确性布尔数组及通过率字段。
特点
该数据集的核心特色在于其难度感知的课程学习设计。通过预先计算的通过率指标,每个样本被赋予0到1之间的连续难度值,直接反映了基础模型对特定问题的解决能力,从而为消融实验和课程排序提供了实证基础。数据完全基于文本模态,专注于数学推理,与第一阶段感知和第三阶段视觉推理形成清晰的分工,避免了多模态任务间的混淆。此外,数据规模适中(约1.3万条),且来源于经过学术验证的ORZ-Math-13k集合,确保了推理任务的挑战性和代表性。该设计允许研究者灵活地按难度升序或降序组织训练序列,以探索课程学习对强化学习训练效果的优化潜力。
使用方法
该数据集可直接通过HuggingFace的datasets库加载,使用`load_dataset('UCSC-VLAA/VLM-CapCurriculum-TextReasoning', split='train')`即可获得训练集。在应用层面,数据集被设计为适配EasyR1训练框架的流程,在Stage-2文本推理强化学习阶段,通过指定JSONL文件路径并设置`data.prompt_key=problem`来启用。对于需要按难度进行课程学习实验的场景,建议在加载前先依据每个样本的`pass_rate`字段对JSONL文件进行排序,然后指向排序后的文件路径。项目代码仓库中提供了完整的训练脚本示例(如`stage2_text_reasoning.sh`)以及课程学习配置样例,便于复现论文中的实验结果。
背景与挑战
背景概述
VLM-CapCurriculum-TextReasoning-Data 数据集由 UCSC-VLAA 团队于 2026 年创建,旨在解决视觉-语言模型(VLM)后训练中感知与推理能力解耦的核心研究问题。作为 ICML 2026 论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》的重要组成部分,该数据集聚焦于文本推理阶段,通过精心筛选 ORZ-Math-13k 子集,提供 13,181 道高难度纯文本数学题。其独特之处在于为每道题预计算了基于 Qwen3-VL-8B-Instruct 模型的 pass_rate 指标,支持按难度排序的课程学习实验,对推动 VLM 分阶段强化学习训练范式具有重要影响力。
当前挑战
该数据集所解决的领域问题核心挑战在于视觉-语言模型在复杂推理任务中表现欠佳,尤其是感知与推理能力相互干扰导致后训练效率低下。传统方法难以有效分离这两个认知过程,而该数据集通过分阶段训练策略,在纯文本数学推理场景中巩固模型推理能力。构建过程中面临的关键挑战包括:从大规模数学题库中科学筛选出具有足够挑战性的题目,确保难度梯度合理分布;准确计算 pass_rate 作为难度信号,需要 16 次独立采样以平衡评估精度与计算成本;以及确保标注一致性,即每道题的标准答案格式需严格匹配自动评分逻辑,避免因符号歧义导致错误评估。
常用场景
经典使用场景
该数据集作为多阶段后训练配方中承上启下的文本推理环节,其经典使用场景在于为视觉语言模型提供纯数学文本推理的强化学习训练素材。研究者通常将其部署于感知阶段与视觉推理阶段之间,以纯文本的数学问题为媒介,专门锤炼模型的抽象符号运算与逻辑推导能力。数据集内置的pass_rate难度信号使得训练过程可按样本难度进行课程式排序,从简易问题逐步过渡至复杂挑战,从而系统性地提升模型对数学推理的驾驭能力。
解决学术问题
该数据集聚焦于解决视觉语言模型在解耦感知与推理训练过程中面临的文本推理能力薄弱问题。传统端到端训练方式往往导致模型过度依赖视觉线索而忽视深层符号推理,此数据集通过构建纯文本数学难题集,迫使模型脱离视觉模态支撑,独立完成从问题表征到解答生成的完整逻辑链条。其内置难度排序机制为课程学习策略提供了可量化依据,使得研究者能够精细探究模型推理能力随难度的演化规律。这不仅填补了阶段性推理训练的数据空白,更为理解视觉语言模型中模态解耦的机制提供了实证基础。
衍生相关工作
该数据集衍生自Open-Reasoner-Zero项目中的ORZ-Math-13k集合,经过精筛选与标注形成。其核心贡献在于开创性地将数学推理数据按难度进行课程式编排,这一思路启发了后续多项关于课程学习与强化学习结合的研究工作。配套的VLM-CapCurriculum系列数据(包括感知与视觉推理阶段)共同构成了完整的解耦训练体系,为相关领域提供了可复现的基准。围绕pass_rate的计算方法,学界进一步探讨了如何基于模型自身表现自动生成训练难度标签,推动了自适应训练策略的发展。
以上内容由遇见数据集搜集并总结生成



