VLM-CapCurriculum-Perception-Data
收藏Hugging Face2026-05-15 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-Perception-Data
下载链接
链接失效反馈官方服务:
资源简介:
VLM-CapCurriculum-Perception (D_perc) 是一个用于视觉语言模型(VLM)分阶段后训练中第一阶段(视觉感知)的数据集,源自ICML 2026论文《从看见到思考:解耦感知与推理改进视觉语言模型的后训练》。该数据集的核心是专门构造的四选一多选题,其问题可以通过细粒度的图像描述来回答,但仅凭图像观察的强视觉语言模型却会答错。通过这种构造方式,数据集旨在隔离模型的感知失败,而非推理失败,从而专门用于提升模型的底层视觉感知能力。每个数据样本包含一个图像、对应的问题、答案、以及基于基础模型Qwen3-VL-8B-Instruct的16次推理结果计算出的预测、正确性和关键的通过率(pass_rate)。通过率作为样本的难度信号,使得数据集可以按照难度(升序为困难优先,降序为简单优先)进行排序,从而支持基于能力与难度的课程学习实验。数据集包含3,360个训练样本,图像源自DOCCI数据集(下采样2倍),共计约14,847个图像文件。该数据集主要用于视觉语言模型在视觉问答和多选任务上的感知能力后训练与评估,特别是与姊妹数据集(TextReasoning, VisualReasoning)结合,构成完整的感知-推理解耦训练流程。
VLM-CapCurriculum-Perception (D_perc) is a dataset for the first stage (visual perception) in phased post-training of visual language models (VLMs), originating from the ICML 2026 paper From Seeing to Thinking: Decoupling Perception and Reasoning to Improve Post-Training of Visual Language Models. The core of this dataset is specially constructed multiple-choice questions with four options, where the questions can be answered through fine-grained image descriptions, but strong visual language models relying solely on image observation will answer incorrectly. This construction isolates perceptual failures rather than reasoning failures, specifically aimed at enhancing the models underlying visual perception capabilities. Each data sample includes an image, corresponding question, answer, and predictions, correctness, and key pass_rate calculated from 16 inference results based on the base model Qwen3-VL-8B-Instruct. The pass_rate serves as a difficulty signal, allowing the dataset to be sorted by difficulty (ascending for difficulty-first, descending for easy-first), thereby supporting curriculum learning experiments based on ability and difficulty. The dataset contains 3,360 training samples, with images sourced from the DOCCI dataset (downsampled by 2x), totaling approximately 14,847 image files. It is primarily used for post-training and evaluation of visual language models in visual question answering and multiple-choice tasks, particularly when combined with sister datasets (TextReasoning, VisualReasoning) to form a complete perception-reasoning decoupled training pipeline.
提供机构:
UCSC-VLAA
创建时间:
2026-05-15
搜集汇总
数据集介绍

构建方式
该数据集源自ICML 2026论文《从看见到思考:解耦感知与推理以改进视觉语言模型后训练》中的阶段式后训练方案。其构建过程严谨且富有创新性:首先利用DOCCI数据集中的图像-描述对,通过Qwen2.5-72B-Instruct模型生成四选一多项选择题;随后执行感知过滤,仅保留那些仅凭图像难以回答、但借助精细描述却能正确解答的题目,此过滤操作由Qwen2.5-VL-7B与Qwen2.5-VL-32B两个模型交叉完成;最后,通过Qwen3-VL-8B-Instruct基线模型进行16次滚动采样,统计每道题的回答正确率,并附上各次滚动的预测结果与正确性标记,从而为每道题赋予一个反映难度的“通过率”指标。
特点
该数据集的核心特色在于其对视觉感知障碍的精准隔离与难度量化。每一道问题都经过精心设计,使得仅依赖图像信息的强视觉语言模型容易犯错,而结合精细描述则可正确解答,从而将感知失败与推理失败明确区分开来。所有样本均附带预先计算的通过率,该值由基线模型多次滚动测试得出,为按难度排序进行课程学习实验提供了天然依据。数据集包含3,360条训练样本,所有图像均源于DOCCI数据集并经过两倍下采样处理,压缩包大小约5GB,便于高效存储与加载。
使用方法
使用该数据集十分便捷。用户可通过HuggingFace的datasets库直接加载,命令为load_dataset('UCSC-VLAA/VLM-CapCurriculum-Perception', split='train')。图像文件需先解压至指定目录,之后在训练时,用户需将JSONL文件路径、图像目录、提示词键与图像键正确配置于EasyR1训练脚本中。若希望进行基于难度的课程学习实验,可按照通过率对JSONL文件进行升序或降序排序,再指向训练脚本即可。该数据集专为视觉语言模型的感知阶段强化学习设计,是解耦感知与推理训练方案中不可或缺的组成部分。
背景与挑战
背景概述
VLM-CapCurriculum-Perception-Data(简称D_perc)是由加州大学圣克鲁兹分校VLAA实验室于ICML 2026会议上提出的一项开创性数据集,核心研究团队包括Juncheng Wu、Hardy Chen等学者。该数据集聚焦于视觉语言模型(VLM)后训练中的感知能力分离,旨在通过细粒度图像描述构造4项多选题,使问题仅凭图像理解难以回答,而借助详细描述则能准确作答,从而精准定位感知失败而非推理失误。D_perc基于DOCCI图像来源,包含3360个训练样本,每个样本附带16次滚动出的通过率(pass_rate),为难度排序课程实验提供基础。该数据集在多模态学习领域引发广泛关注,推动了分阶段后训练范式的革新,显著提升了VLM从感知到推理的解耦性能。
当前挑战
当前数据集面临的核心挑战在于如何精确隔离感知与推理的失败边界,确保构造的问题能真实反映模型在视觉特征提取上的不足,而非语言理解或逻辑推理的缺陷。构建过程中,需依赖Qwen2.5-VL-7B和32B模型进行双重过滤,保证问题对图像回答错误但基于描述回答正确,这要求高度精细的生成与筛选机制。此外,pass_rate的稳定性受限于基模型Qwen3-VL-8B-Instruct的16次滚动出,样本难度量化可能存在随机偏差,影响课程学习效果。数据量仅3360条,在覆盖复杂场景多样性方面存在局限,未来需扩展至更多样化的图像域,以提升泛化能力。
常用场景
经典使用场景
在视觉-语言模型的后训练阶段,精准定位与修复模型的感知缺陷是提升其整体能力的关键环节。VLM-CapCurriculum-Perception-Data专为解耦感知与推理能力的多阶段训练范式而设计,其经典使用场景在于作为第一阶段感知训练的数据基石。该数据集通过精心构造的四选一多选题,使每个问题均可从细粒度图像描述中准确回答,却足以让强大的视觉-语言模型仅凭图像输入而犯错,从而巧妙地将感知失败与推理失败分离开来。搭配预设的通过率指标,研究者能够基于样本难度进行能力与难度的课程学习实验,实现对模型感知能力的渐进式强化训练。
解决学术问题
视觉-语言模型在面对复杂视觉场景时,常因感知能力不足而输出错误答案,这一问题长期困扰着学术界,然而现有研究往往将感知缺陷与推理瓶颈混为一谈,缺乏有效的诊断与分离手段。该数据集通过严谨的过滤流程,从大量图像-描述对中筛选出那些仅凭细粒度描述可答而纯视觉模型频繁失误的样本,首次系统性地构建了专门隔离感知失败的评估与训练基准。这一工作解构了视觉-语言模型能力提升路径中的关键瓶颈,为后续研究者提供了厘清视觉感知与高层推理之间微妙关系的重要分析工具,推动了模型后训练从粗放式微调向精细化能力解耦的范式转变。
衍生相关工作
该数据集衍生了一系列围绕课程学习与多阶段训练策略的经典工作。研究者基于其难度信号设计了由易到难或由难到易的感知课程方案,探索了不同排序策略对模型感知能力收敛效率的影响。此外,该数据集的构建方法论催生了后续的文本推理阶段与视觉推理阶段数据集的开发,形成了完整的感知-文本推理-视觉推理三阶段训练链条。更为深远的是,其感知与推理解耦的理念启发了多种针对视觉-语言模型特定能力缺陷的诊断工具,以及基于强化学习的精细化后训练框架,推动了视觉-语言模型能力提升领域研究范式的系统性演进。
以上内容由遇见数据集搜集并总结生成



