five

VLM-CapCurriculum-VisualReasoning-Data

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data
下载链接
链接失效反馈
官方服务:
资源简介:
VLM-CapCurriculum-VisualReasoning (D_vis) 是一个用于视觉语言模型后训练的视觉推理数据集,作为论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》(ICML 2026)中提出的分阶段后训练方案的第三阶段数据。该数据集汇集了来自四个开源语料库的视觉数学和图形推理样本,共计16,195个,具体包括Math PUMA(合成,6,696个)、GeoQA170K(6,499个)、CLEVR-Math(2,000个)和ArxivQA(2倍降采样,1,000个)。每个数据样本包含问题文本、答案、关联的图像路径、数据来源标识,以及一个关键的计算字段pass_rate(通过率),该字段基于基础模型Qwen3-VL-8B-Instruct的16次推理结果计算得出,值在0到1之间,直接反映模型下每个样本的难度,可用于按pass_rate排序以研究基于能力与难度的课程学习策略。该数据集主要适用于视觉问答、视觉推理、数学推理等任务,旨在提升模型的高级推理能力。
提供机构:
UCSC-VLAA
创建时间:
2026-05-16
原始信息汇总

数据集概述:VLM-CapCurriculum-VisualReasoning (D_vis)

基本信息

  • 数据集名称:VLM-CapCurriculum-VisualReasoning (D_vis)
  • 许可证:Apache-2.0
  • 语言:英文
  • 任务类别:视觉问答(Visual Question Answering)
  • 数据规模:16,195 个样本
  • 所属论文:《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》(ICML 2026)

数据来源与构成

该数据集融合了四个开源语料库的视觉数学与图形推理样本:

来源 样本数量 图像文件夹
Math PUMA (合成) 6,696 images/synthesis/
GeoQA170K 6,499 images/geoqa170k/
CLEVR-Math 2,000 images/clevr_math/
ArxivQA (2倍下采样) 1,000 images/arxivqa_2x/
总计 16,195

数据结构与布局

. ├── visual_reasoning_difficulty_curriculum.jsonl └── images/ ├── synthesis.tar.gz ├── geoqa170k.tar.gz ├── clevr_math.tar.gz └── arxivqa_2x.tar.gz

  • 图像以 .tar.gz 压缩包形式提供,解压后路径为 images/<来源>/<文件名>
  • 每条数据记录包含:index(唯一索引)、problem(问题文本)、answer(答案)、images(图像路径列表)、source(来源)、predictions(16次生成结果)、correctness(16次正确性布尔值)、pass_rate(难度评分)。

关键特性:难度信号与课程学习

  • 使用 Qwen3-VL-8B-Instruct 对每个样本进行 16 次 rollout,计算正确率作为 pass_rate(范围 [0, 1])。
  • pass_rate 可用于按样本难度排序,支持基于能力×难度的课程学习实验。
  • 支持通过排序 jsonl 文件实现难度排序的课程训练(Difficulty-ordered Curriculum)。

使用方式

Python 加载

python from datasets import load_dataset ds = load_dataset("UCSC-VLAA/VLM-CapCurriculum-VisualReasoning", split="train") print(ds[0])

EasyR1 训练配置

bash data.train_files=<路径>/visual_reasoning_difficulty_curriculum.jsonl data.image_dir=<路径>/images data.prompt_key=problem data.image_key=images

相关数据集

  • UCSC-VLAA/VLM-CapCurriculum-Perception:阶段1感知 MCQ(基于 DOCCI 图像)
  • UCSC-VLAA/VLM-CapCurriculum-TextReasoning:阶段2文本推理(ORZ-Math-13k)

其他信息

  • 代码仓库:https://github.com/UCSC-VLAA/VLM-CapCurriculum
  • 项目页面:https://ucsc-vlaa.github.io/VLM-CapCurriculum
  • 数据集集合:https://huggingface.co/collections/UCSC-VLAA/vlm-capcurriculum-from-seeing-to-thinking-icml-2026-6a07691f944148ccb2b183b8
  • 原始数据来源许可:各图像源(CLEVR-Math、GeoQA170K、Math PUMA、ArxivQA)遵循其上游许可证。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为VLM-CapCurriculum-VisualReasoning-Data,是ICML 2026论文《从看到思:解耦感知与推理以改善视觉语言模型后训练》中提出的三阶段后训练配方的第三阶段视觉推理数据。它从四个开源语料库中精心筛选并整合了16,195个样本,涵盖视觉数学与基于图形的推理任务,具体包括Math PUMA合成数据、GeoQA170K几何问题、CLEVR-Math合成3D场景推理以及经二倍降采样的ArxivQA论文图表数据。每个样本均附带了由Qwen3-VL-8B-Instruct基础模型通过16次滚动生成并计算得到的pass_rate指标,该指标衡量了样本在该模型上的经验性难度,从而支持按难度排序的课程学习实验。
特点
该数据集的核心特点在于其内置的难度信号与课程学习适应性。通过对每个样本进行16次独立推理并计算通过率,数据集将能力与难度解耦,使得研究者可以按照样本从易到难的顺序进行训练,从而系统性地提升模型在视觉推理任务上的表现。此外,数据样本来源多元,覆盖了合成几何、计数推理、数学基准以及学术论文图表等多样性场景,能够有效评估和强化视觉语言模型在复杂推理场景中的泛化能力。每个样本的JSON结构中包含了问题、答案、对应图像路径、16次滚动输出的预测结果、正确性布尔数组以及计算得出的通过率,信息丰富且便于分析。
使用方法
使用该数据集时,研究者可以直接通过HuggingFace Datasets库加载,例如通过load_dataset("UCSC-VLAA/VLM-CapCurriculum-VisualReasoning", split="train")获取训练集。加载后的数据可无缝嵌入EasyR1训练框架,用于第三阶段视觉推理的强化学习训练,只需在配置文件中指定JSONL文件路径和图像目录即可。对于需要实施课程学习的场景,建议在训练前根据pass_rate字段对JSONL文件进行排序,以实现按难度递增的顺序训练模型。此外,数据集中包含的四个压缩图像档案需先解压至与JSONL文件同级的images目录下,确保图像路径能够正确映射。
背景与挑战
背景概述
近年来,视觉语言模型的发展已从简单的图像描述转向复杂的视觉推理任务,然而,模型在感知与推理能力之间的耦合问题成为制约其性能提升的关键瓶颈。为应对这一挑战,来自加州大学圣克鲁兹分校的Wu、Chen、Tu等研究者在ICML 2026上提出了‘从看见到思考’的分阶段后训练策略,并构建了VLM-CapCurriculum-VisualReasoning数据集。该数据集创建于2025年前后,汇集了数学PUMA、GeoQA170K、CLEVR-Math及ArxivQA四个开源语料库中共计16,195个样本,涵盖几何问题、计数推理及科学图表理解等核心视觉推理场景。每个样本均伴随由Qwen3-VL-8B-Instruct模型经16次采样得到的通过率指标,为按能力与难度进行课程学习提供了量化依据,推动了视觉推理训练范式的革新。
当前挑战
该数据集所解决的核心领域问题是视觉语言模型在复杂视觉推理任务中感知与推理能力的解耦,传统方法往往将图像特征提取与逻辑推理混杂训练,导致模型在跨域推理时泛化能力不足。数据构建过程面临多重挑战:首先,需从异构来源中筛选高质量推理样本,例如ArxivQA中科学图表推理难度差异极大,需进行2倍下采样以平衡分布;其次,合成数据如CLEVR-Math虽可控性强,但场景多样性受限,需与真实世界几何图、论文图表混合以增强鲁棒性;此外,通过率指标的获取依赖大规模模型推理,16次滚动的计算成本高昂,且需确保评分一致性与基准模型的代表性,避免因单次采样噪声导致难度标定失真。
常用场景
经典使用场景
该数据集是视觉语言模型(VLM)后训练阶段中视觉推理能力的核心数据资源,广泛应用于多模态数学问题求解、几何图形推理、合成场景计数与图表理解等任务。通过整合Math PUMA、GeoQA170K、CLEVR-Math与ArxivQA四大开源语料库的16,195个样本,为模型从‘感知’到‘推理’的渐进式训练提供了结构化支持。其经典使用方式在于,研究者可依据预计算的通过率(pass_rate)对样本按难度排序,实施能力×难度课程学习,从而在强化学习与推理轨迹优化中更高效地提升模型的视觉推理性能。
解决学术问题
该数据集系统性地解决了视觉语言模型后训练中‘感知与推理耦合’导致的泛化瓶颈问题。在学术研究中,传统方法往往将视觉特征提取与逻辑推理混为一谈,难以量化样本难度对模型学习效果的影响。VLM-CapCurriculum-VisualReasoning通过为每个样本提供基于16次模型采样所得的通过率指标,首次实现了难度标注的标准化,使得研究者能够探究不同难度层级下强化学习策略的差异化效果,推动了课程学习与RLVR(基于推理的强化学习)机制的深度融合,显著提升了VLM在复杂视觉推理场景中的稳健性与可解释性。
衍生相关工作
该数据集衍生了一系列具有里程碑意义的研究工作,其中最为核心的是发表于ICML 2026的论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》,该工作首次提出解耦式后训练范式,将视觉推理数据与感知数据、文本推理数据分层使用,形成了完整的三阶段课程学习框架。此外,围绕该数据集的难度感知训练机制,后续工作进一步探索了基于通过率的动态采样策略、跨模型难度迁移以及多轮RLVR优化方法,推动视觉语言模型在逻辑推理与数学思维领域的研究迈入新台阶。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作