CLEVR Mental Rotation Tests

github2022-01-01 更新2024-05-31 收录

下载链接：

https://github.com/christopher-beckham/clevr-mrt-dataset-gen

下载链接

链接失效反馈

官方服务：

资源简介：

我们探索了一个受控环境，其中提出了关于场景从另一个视角观察时属性的问题。为此，我们创建了一个名为CLEVR Mental Rotation Tests的新版本的CLEVR数据集。

We explored a controlled environment where questions were posed about the attributes of a scene when viewed from another perspective. To this end, we created a new version of the CLEVR dataset, named CLEVR Mental Rotation Tests.

创建时间：

2020-11-25

原始信息汇总

Clevr-MRT Dataset

数据集概述

Clevr-MRT是一个专门设计的视觉推理和感知数据集，用于研究对象或视觉场景在不同视角下的外观变化。该数据集基于CLEVR数据集，通过引入视角变换问题，增强了数据集的复杂性和挑战性。

数据集内容

数据集生成: 使用Blender 2.78进行图像渲染，通过特定的脚本控制视角和场景参数。
渲染参数: 包括视角范围（水平角度-180至180度，垂直角度30至45度），以及随机视点和渲染样本数等。
输出: 生成图像、场景文件和场景描述JSON文件，用于训练和测试。

使用示例

示例代码: 提供了一个Jupyter Notebook示例文件example.ipynb，用于展示如何使用数据集。

数据集渲染

本地渲染: 提供了一个在Mac上本地渲染的脚本setup_blender_mac.sh，用于设置Blender环境并渲染图像。

搜集汇总

数据集介绍

构建方式

CLEVR Mental Rotation Tests（CLEVR-MRT）数据集的构建基于CLEVR数据集，旨在探索从单一图像中推断场景在不同视角下的属性。该数据集通过Blender渲染工具生成，利用3D建模技术创建了多个视角下的场景图像。具体而言，数据集通过设置不同的视角参数（如方位角、仰角和半径）生成多视角图像，并结合场景描述文件记录每个视角下的场景属性。这一构建方式为研究视觉推理和感知提供了高度可控的实验环境。

特点

CLEVR-MRT数据集的特点在于其专注于心理旋转测试，即从单一图像推断场景在不同视角下的属性。数据集包含多视角渲染图像及其对应的场景描述文件，支持对视觉推理能力的定量评估。此外，数据集通过随机化视角参数和场景配置，确保了数据的多样性和复杂性。其高度结构化的场景描述文件为研究提供了丰富的标注信息，便于开发和分析视觉推理模型。

使用方法

使用CLEVR-MRT数据集时，研究人员可通过Blender工具渲染多视角图像，并利用提供的脚本生成训练和测试数据。数据集的使用流程包括配置Blender环境、运行渲染脚本以及解析场景描述文件。用户可根据研究需求调整渲染参数，如视角范围、图像数量和采样精度等。此外，数据集支持并行渲染，以提高数据生成效率。通过结合示例代码和文档，用户可以快速上手并开展视觉推理相关的研究工作。

背景与挑战

背景概述

CLEVR Mental Rotation Tests（CLEVR-MRT）数据集是由Christopher Beckham等人于近年开发，旨在探索人类视觉推理与感知的心理学研究工具。该数据集基于CLEVR数据集，专注于从单一图像中推断物体或场景在不同视角下的属性。通过模拟心理旋转测试，CLEVR-MRT为研究人类如何从不同视角理解视觉场景提供了可控的实验环境。其核心研究问题在于如何通过单一图像进行多视角推理，这一挑战在计算机视觉和认知科学领域具有重要意义。CLEVR-MRT的发布为相关领域的研究者提供了一个标准化的测试平台，推动了视觉推理与认知建模的深入研究。

当前挑战

CLEVR-MRT数据集在解决视觉推理问题时面临多重挑战。首先，从单一图像推断多视角场景属性需要高度复杂的空间推理能力，这对模型的几何理解与视角变换能力提出了极高要求。其次，数据集的构建过程涉及大量三维场景的渲染与标注，如何在保证数据多样性的同时控制场景的复杂性，是一个技术难题。此外，数据集的生成依赖于Blender等工具，其渲染效率与计算资源消耗也成为构建过程中的瓶颈。如何在有限的计算资源下高效生成大规模、高质量的多视角数据，是CLEVR-MRT数据集构建中的核心挑战之一。

常用场景

经典使用场景

CLEVR Mental Rotation Tests（CLEVR-MRT）数据集在心理学和计算机视觉领域中被广泛用于研究人类视觉推理和感知能力。该数据集通过生成多视角的场景图像，模拟了人类在单一图像基础上进行心理旋转的能力，从而为研究者提供了一个可控的实验环境，用于探索视觉场景在不同视角下的属性变化。

解决学术问题

CLEVR-MRT数据集解决了在单一图像基础上进行心理旋转的难题，为研究者提供了一个标准化的工具，用于评估和比较不同模型在视觉推理任务中的表现。通过该数据集，研究者能够深入探讨人类视觉系统的运作机制，并推动计算机视觉模型在复杂场景理解方面的进步。

衍生相关工作

CLEVR-MRT数据集衍生了一系列经典的研究工作，包括基于深度学习的视觉推理模型和多视角场景理解算法。这些工作不仅推动了计算机视觉领域的发展，还为心理学研究提供了新的工具和方法，进一步加深了人类对视觉感知机制的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集