Multi-dSprites, Objects Room, CLEVR (with masks), Tetrominoes, CATER (with masks)

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/deepmind/multi_object_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于dSprites的数据集，每个图像包含多个椭圆、心形或方形精灵（有些遮挡），背景为均匀颜色。我们发布了三个版本，每个版本包含1M数据点：1.1二值化：每个图像有2-3个白色精灵在黑色背景上。1.2彩色精灵在灰度上：每个场景有2-5个随机彩色HSV精灵在随机采样的灰度背景上。1.3彩色精灵和背景：每个场景有1-4个精灵。所有颜色都是随机采样的RGB值。每个数据点包含一个图像，多个背景和对象掩码，以及每个对象的以下地面真实特征：x和y位置，形状，颜色（rgb值），方向和比例。最后，可见性是一个二进制特征，指示哪些对象不为空。

This dataset is based on dSprites, where each image contains multiple sprites of ellipses, hearts, or squares (some occluded) against a uniform color background. We have released three versions, each containing 1M data points: 1.1 Binarized: Each image features 2-3 white sprites on a black background. 1.2 Colored sprites on grayscale: Each scene includes 2-5 randomly colored HSV sprites on a randomly sampled grayscale background. 1.3 Colored sprites and background: Each scene contains 1-4 sprites. All colors are randomly sampled RGB values. Each data point comprises an image, multiple background and object masks, and the following ground truth features for each object: x and y positions, shape, color (RGB values), orientation, and scale. Finally, visibility is a binary feature indicating which objects are not empty.

创建时间：

2019-08-30

原始信息汇总

数据集概述

本数据集集合包含用于多对象表示学习的多个数据集，主要用于开发场景分解方法，如MONet、IODINE和SIMONe等。以下是具体的数据集列表及其特点：

Multi-dSprites
- 基于dSprites数据集，包含多个椭圆、心形或方形形状的精灵，背景为均匀颜色。
- 提供三种版本：二值化、彩色精灵在灰度背景上、彩色精灵和背景。
- 每个数据点包含图像、背景和对象掩码，以及每个对象的x和y位置、形状、颜色、方向和比例等特征。
Objects Room
- 基于MuJoCo环境和3d-shapes数据集，训练集包含1M场景，最多三个对象。
- 提供三种测试变体：空房间、六个对象、颜色相同。
- 数据点包含图像和固定数量的掩码，前四个掩码对应天空、地板和墙壁，其余对应前景对象。
CLEVR (with masks)
- 通过改编Johnson等人的开源脚本生成，提供场景的地面真值分割掩码。
- 图像和掩码大小为320x240，提供所有原始数据集中的地面真值因子，包括x、y、z位置、像素坐标、旋转、大小、材料、形状和颜色等。
Tetrominoes
- 包含类似俄罗斯方块的形状（即tetrominoes），每个35x35图像包含三个tetrominoes。
- 提供每个tetromino的x和y位置、形状和颜色等特征。
CATER (with masks)
- 通过改编Girdhar等人的开源脚本生成，提供视频的地面真值分割掩码。
- 视频和掩码大小为64x64，包含33帧，提供camera_matrix和object_positions等特征。

数据集特征

所有数据集包含多对象场景，每个图像或视频都伴随有场景中所有对象的地面真值分割掩码。
部分数据集（除Objects Room和CATER外）还提供每个对象的生成因子，包括描述和渲染对象所需的所有必要和充分特征。

数据集使用

数据集可通过Google Cloud Storage下载，每个数据集为一个TFRecords文件。
下载后，可通过提供的读取器作为tf.data.Dataset实例读取。
提供了一个TensorFlow实现的调整兰德指数（adjusted Rand index），用于比较推断的对象分割与地面真值分割掩码。

引用信息

若在工作中使用这些数据集，请按以下方式引用：

bibtex @misc{multiobjectdatasets19, title={Multi-Object Datasets}, author={Kabra, Rishabh and Burgess, Chris and Matthey, Loic and Kaufman, Raphael Lopez and Greff, Klaus and Reynolds, Malcolm and Lerchner, Alexander}, howpublished={https://github.com/deepmind/multi-object-datasets/}, year={2019} }

搜集汇总

数据集介绍

构建方式

该数据集由多个多对象场景组成，每个场景包含图像或视频，并附带所有对象的地面真实分割掩码。数据集的构建方式是通过对原始数据集进行改编和扩展，例如基于dSprites的Multi-dSprites数据集，通过增加多个形状和颜色的精灵来创建多对象场景。此外，CLEVR和CATER数据集通过生成新的分割掩码来适应多对象表示学习的需求。每个数据点不仅包含图像，还包含对象的生成因子，如位置、颜色、形状和尺度等，这些因子为场景中的每个对象提供了详细的描述。

特点

该数据集的主要特点是其丰富的多对象场景和详细的分割掩码，这为场景分解和对象表示学习提供了高质量的训练数据。每个数据集都包含多种版本，以适应不同的实验需求，例如Multi-dSprites提供了二值化、彩色精灵在灰度背景上以及彩色精灵和背景的版本。此外，数据集还提供了对象的生成因子，这些因子是描述和渲染场景中对象所必需的，从而支持更复杂的模型训练和评估。

使用方法

使用该数据集时，首先需要从Google Cloud Storage下载相应的TFRecords文件。下载后，可以使用TensorFlow的tf.data.Dataset API加载数据集，并通过提供的读取器进行数据处理。数据集返回的图像和分割掩码遵循标准的TensorFlow格式，便于直接用于模型训练。此外，数据集还提供了用于评估分割结果的工具，如调整后的兰德指数，这可以帮助研究人员比较模型预测的分割掩码与地面真实掩码的准确性。

背景与挑战

背景概述

Multi-Object Datasets是由DeepMind的研究团队于2019年创建的一组多对象表示学习数据集，旨在推动场景分解方法的发展，如MONet、IODINE和SIMONe等模型。这些数据集包括Multi-dSprites、Objects Room、CLEVR（带掩码）、Tetrominoes和CATER（带掩码），每个数据集都包含多对象场景，并附带每个对象的分割掩码。这些数据集的核心研究问题是如何有效地表示和分解复杂的多对象场景，从而为无监督学习提供丰富的训练数据。通过提供详细的生成因子（如位置、颜色、形状等），这些数据集为研究者提供了一个标准化的基准，以评估和改进多对象表示学习算法。

当前挑战

Multi-Object Datasets在构建过程中面临多项挑战。首先，生成高质量的多对象场景并确保每个对象的分割掩码准确无误是一项复杂任务，尤其是在处理遮挡和复杂背景时。其次，为每个对象提供详细的生成因子需要精确的场景描述和渲染技术，这增加了数据集的构建难度。此外，数据集的多样性和规模也带来了存储和计算资源的挑战，尤其是在处理大规模视频数据时。最后，如何有效地评估和比较不同模型的分割结果，尤其是在处理背景像素时，仍然是一个开放的研究问题。

常用场景

经典使用场景

该数据集主要用于多对象场景的表示学习，特别是在开发场景分解方法时，如MONet、IODINE和SIMONe等模型。这些数据集提供了多对象场景的图像和视频，并附带了每个对象的分割掩码，使得研究者能够训练模型以识别和分离场景中的各个对象。通过这些数据集，研究者可以探索如何从复杂的视觉场景中提取出独立的对象表示，从而推动无监督学习和视觉理解的前沿研究。

实际应用

在实际应用中，这些数据集可以用于训练和验证视觉系统，如自动驾驶车辆中的对象检测和分割、机器人视觉中的场景理解，以及增强现实中的对象识别和交互。通过使用这些数据集，开发者可以构建更精确和鲁棒的视觉模型，从而提高各种应用场景中的性能和可靠性。

衍生相关工作

基于这些数据集，研究者已经开发了多种先进的视觉模型，如MONet、IODINE和SIMONe等。这些模型在无监督场景分解和表示学习方面取得了显著进展，推动了视觉理解和推理的研究。此外，这些数据集还激发了其他相关工作，如在视频分析、动作识别和时间推理等领域的应用，进一步扩展了其学术和实际应用的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集