ULVR_all

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/RuoliuYang/ULVR_all

下载链接

链接失效反馈

官方服务：

资源简介：

ULVR_all是一个多模态视觉问答推理数据集，包含53,106个样本，旨在支持图像理解和推理任务。数据集提供两种配置：preview配置便于浏览，每个样本包含输入图像、最多三个中间图像、问题、答案以及丰富的元数据（如类别、来源数据集、选项信息等）；no_text配置专为Monet SFT训练设计，采用结构化格式，包含元数据（如数据集名称和样本ID）和数据序列，其中数据序列由角色和内容组成，内容可包含文本和图像类型。数据集语言为英语，规模介于1万到10万之间，标签表明其涉及图像、多模态、推理、视觉问答和合成数据。该数据集适用于视觉问答、多模态推理和模型训练等应用场景。

ULVR_all is a multimodal visual question answering reasoning dataset containing 53,106 samples, designed to support image understanding and reasoning tasks. The dataset offers two configurations: the preview configuration facilitates browsing, with each sample including input images, up to three intermediate images, questions, answers, and rich metadata (such as categories, source datasets, option information, etc.); the no_text configuration is specifically designed for Monet SFT training, using a structured format that includes metadata (such as dataset name and sample ID) and data sequences, where data sequences consist of roles and content, with content potentially containing text and image types. The dataset language is English, with a scale between 10,000 and 100,000 samples, and labels indicate it involves images, multimodal, reasoning, visual question answering, and synthetic data. This dataset is suitable for applications such as visual question answering, multimodal reasoning, and model training.

创建时间：

2026-05-16

原始信息汇总

数据集概述：ULVR_all

该数据集是一个面向多模态推理的视觉问答（VQA）数据集，包含 53,106 个样本，提供两种配置以满足不同的使用需求。

基本信息

数据集名称: ULVR_all
语言: 英语 (en)
样本规模: 10,000 < n < 100,000 (53,106 条)
标签: 图像、多模态、推理、视觉问答、合成数据

两种配置

1. preview（默认配置）

用途: 用于浏览和预览数据集内容
格式: parquet 文件 (data/train-*.parquet)
包含字段:
- 输入数据: 输入图像 (input_image)、中间图像（最多3张：intermediate_image_1 至 intermediate_image_3）
- 问答对: 问题 (question)、答案 (answer)
- 元数据: 样本ID (id)、类别 (category)、来源数据集 (source_dataset)、来源ID (source_id)、选项JSON (choices_json)、是否有选项 (has_choices)、选项数量 (num_choices)、中间状态类型 (intermediate_state_types_json)、中间步骤数量 (num_intermediate_steps)、样本目录 (sample_dir)、输入图像路径 (input_image_path)、中间图像路径 (intermediate_image_paths_json)、元数据JSON (metadata_json)、原始文本数据JSON (original_text_data_json)

2. no_text

用途: 用于 Monet SFT 训练格式
格式: JSONL 文件 (no_text/train.jsonl)
包含字段:
- metadata: 包含数据集名称 (dataset_name) 和样本ID (sample_id)
- data: 一个序列，每个元素包含：
  - role: 角色（字符串）
  - content: 一个序列，每个元素包含：
    - type: 类型（字符串）
    - text: 文本（字符串）
    - image: 图像（字符串）
注意: 训练时需要 images/ 目录，并使用 --dataset_root 指向仓库根目录

数据特点

数据为合成生成，专注于多模态推理任务。
包含中间推理步骤的视觉信息（最多3张中间图像），支持逐步推理的评估。

搜集汇总

数据集介绍

构建方式

ULVR_all 数据集基于 53106 个样本构建，支持两种配置形态：`preview` 配置专为浏览和初步探索设计，以 Parquet 格式存储，包含输入图像、中间状态图像、问题与答案等完整字段；`no_text` 配置则契合 Monet SFT 训练范式，以 JSONL 格式组织数据，仅保留 `metadata` 与 `data` 字段，其中 `data` 通过角色与多模态内容序列构建对话式训练样本。训练时需在仓库根目录下配置 `--dataset_root` 参数以索引 `images/` 目录中的图像文件。

特点

该数据集以多模态推理为核心，每个样本包含输入图像、多幅中间状态图像及对应的问答对，模拟逐步推理过程。数据覆盖多种类别与来源，提供 `intermediate_state_types_json` 和 `num_intermediate_steps` 字段以记录推理步骤的类型与数量，支持对推理链的细粒度分析。`has_choices` 与 `choices_json` 字段标识是否包含选项，显著增强了数据集在视觉问答与推理任务中的灵活性与可解释性。

使用方法

使用时，`preview` 配置可直接加载 Parquet 文件，利用 HuggingFace Datasets 库快速浏览样本的结构化字段。`no_text` 配置则需结合 Monet 框架，在训练脚本中指定 `--dataset_root` 指向图像存储路径，通过 `metadata` 与 `data` 序列构建多轮对话输入。建议根据任务目标选择配置：若需完整推理过程可视化，选用 `preview`；若专注于模型微调，则采用 `no_text` 配置以适配标准 SFT 流程。

背景与挑战

背景概述

ULVR_all数据集由研究机构或团队于近年构建，旨在推动多模态视觉推理与视觉问答（VQA）领域的发展。该数据集包含53,106个样本，每个样本均配备输入图像、多帧中间状态图像、问题与答案，形成一种多步骤推理链条，模拟人类在复杂视觉任务中逐步求解的认知过程。作为合成数据集，ULVR_all为训练模型在场景理解、因果推理与多模态对齐等核心问题上提供了高质量、结构化的训练资源。其影响在于弥补了现有视觉推理数据集缺乏中间状态显式标注的不足，为构建更透明、可解释的视觉语言模型提供了关键支撑。

当前挑战

ULVR_all所解决的领域挑战在于，传统视觉问答数据集多聚焦于单步问答，难以评估模型在连续视觉推理中的中间步骤正确性与逻辑连贯性，阻碍了模型向类人认知能力的进化。构建过程中面临的主要挑战包括：设计合理的多步骤视觉推理任务以确保中间状态的语义一致性；合成大量逼真、多样化的中间图像以覆盖广泛场景；以及标注高质量的问题-答案对，使其既体现推理深度又避免答案偏置。此外，确保数据集规模与合成效率的平衡、防止中间状态冗余或误导性问题，亦是制约其扩展性的关键难题。

常用场景

经典使用场景

ULVR_all数据集专为多模态视觉推理任务而设计，其核心应用在于推动视觉问答（VQA）系统的深度推理能力。该数据集包含53106个样本，每个样本均配备输入图像、中间步骤图像以及与推理过程紧密关联的问题和答案，为模型提供了从视觉输入到逻辑输出的完整链式训练数据。研究者常借助该数据集训练能够理解图像序列并执行多步推理的模型，尤其是在需要模拟人类逐步观察、分析并得出结论的复杂视觉场景中，例如识别物体变化、评估因果关系或预测动态过程。通过引入具有透明度的时间步推理数据，ULVR_all显著提升了模型在需要多层视觉上下文理解的任务上的表现。

解决学术问题

该数据集精准回应了现有视觉问答研究中普遍存在的浅层推理与黑箱决策问题。传统VQA数据集多侧重于单一图像与文本的简单映射，模型往往依赖统计关联而非真正的逻辑推导。ULVR_all通过引入中间视觉状态与结构化推理路径，使研究能够触及模型在动态场景中的解释性推理能力，从而推动学术领域对多步视觉推理、因果推理以及可解释人工智能等前沿课题的探索。其提供的分步图像还原了真实世界中的渐进感知过程，为评估模型在多层次视觉理解上的鲁棒性与泛化能力奠定了坚实的数据基础，在学术界产生了引领性影响。

衍生相关工作

ULVR_all数据集的发布催生了多项关于多模态推理与逐步视觉理解的经典工作。后续研究以该数据集为基础，开发了专门针对中间视觉状态建模的神经网络架构，如引入视觉Transformer的时间推理模块；也衍生出多种注重推理透明度的评估指标，推动模型从结果正确性向过程可解释性延伸。此外，基于该数据集的挑战赛与基准测试促进了零样本推理和少样本学习方法的进步，多个团队利用其结构化样本设计出能自动生成推理路径的强泛化模型，这些工作广泛发表于计算机视觉与自然语言处理顶级会议，为多模态大模型的逻辑对齐与认知模拟提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集