CLEVR

arXiv2025-09-30 收录

下载链接：

https://cs.stanford.edu/people/jcjohns/clevr/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CLEVR，专为视觉推理而设计，包含了图像以及与之对应的各类问题和程序。为了进行实验，研究人员从CLEVR中创建了一个子集，其中包含了31,252个不同的问题及其相应的程序。该任务的目的是进行视觉推理和问题回答。

This dataset, named CLEVR, is purpose-built for visual reasoning tasks, comprising images alongside their corresponding diverse questions and programs. For experimental research, researchers developed a subset derived from CLEVR, which contains 31,252 unique questions along with their respective programs. The core objective of this task is visual reasoning and question answering.

搜集汇总

数据集介绍

构建方式

在视觉问答领域，为构建一个能够精准评估模型推理能力的数据集，CLEVR采用合成图像与自动生成问题相结合的策略。图像通过Blender渲染生成，场景中包含随机放置的三维几何体，每个物体具有形状、大小、颜色和材质等属性，并确保物体间无重叠且空间关系明确。问题生成则基于90个问题家族，每个家族包含程序模板和自然语言文本模板，通过深度优先搜索和拒绝采样技术，确保问题既无偏差又避免退化，最终形成包含约100万条问题的数据集。

使用方法

CLEVR数据集主要用于评估和诊断视觉问答模型的推理能力。研究者可将数据集划分为训练集、验证集和测试集，利用其提供的图像和问题对模型进行训练与测试。通过问题对应的功能程序，可以按问题类型、关系类型、拓扑结构或有效问题长度等维度对模型性能进行细粒度分析。例如，可以专门考察模型在属性比较或空间关系推理上的表现，从而识别模型在短时记忆、组合泛化或长链推理等方面的具体缺陷，为改进模型设计提供明确方向。

背景与挑战

背景概述

CLEVR数据集于2016年由斯坦福大学与Facebook人工智能研究院联合推出，旨在构建一个诊断性视觉问答基准，以评估模型在组合语言与基础视觉推理方面的能力。该数据集通过合成三维形状图像与自动生成问题，聚焦于消除传统视觉问答数据集中存在的偏见，从而精确检验模型在属性识别、计数、比较及逻辑推理等核心任务上的表现。其设计推动了视觉推理研究的可解释性，成为分析模型短板与驱动算法改进的重要工具。

当前挑战

CLEVR数据集致力于解决视觉问答中模型依赖数据偏见而非真正推理的问题，其挑战在于要求模型执行多步骤组合推理，如处理长链空间关系或跨属性比较。构建过程中的挑战包括：确保问题无歧义且避免退化，需通过深度搜索与拒绝采样来平衡答案分布；同时，生成多样且复杂的自然语言问题，需设计90个问题族并融合众包改写，以覆盖853K个独特问题，从而在控制偏见的条件下维持语言与逻辑的丰富性。

常用场景

经典使用场景

在视觉问答领域，CLEVR数据集被广泛用于评估模型在组合语言与基础视觉推理方面的能力。该数据集通过合成图像和自动生成的问题，构建了一个包含多种推理任务的测试环境，如属性识别、计数、比较和逻辑运算。研究者利用CLEVR来检验模型是否能够理解复杂的空间关系和对象属性，而不仅仅是依赖数据集的偏见。其结构化的问题表示和场景标注使得模型性能的分析更为精细，从而推动了视觉推理系统的诊断与改进。

解决学术问题

CLEVR数据集主要解决了视觉问答研究中模型依赖数据集偏见而非真正推理能力的问题。通过最小化问题与答案之间的统计相关性，它迫使模型必须基于视觉内容进行逻辑推断，而非利用语言模式的捷径。该数据集帮助识别了现有模型在短时记忆、组合泛化和空间语义理解等方面的局限性，为开发更鲁棒的推理系统提供了明确的诊断工具，促进了视觉与语言交叉领域的基础理论探索。

实际应用

在实际应用中，CLEVR数据集为智能辅助系统、机器人视觉理解和教育技术提供了基准测试平台。例如，在机器人导航任务中，系统需要理解“拾取红色立方体左侧的金属球”这类指令，这要求模型具备类似CLEVR中的空间推理能力。此外，该数据集的设计理念也被应用于开发更公平、无偏见的视觉问答系统，提升了人工智能在医疗影像分析、自动驾驶场景理解等领域的可靠性和泛化性能。

数据集最近研究