dSprites

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/deepmind/dsprites-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

dSprites是一个2D形状数据集，由6个基本独立的潜在因素（颜色、形状、比例、旋转、x和y位置）生成，用于评估无监督学习方法的解耦特性。数据集包含737280张图像，每张图像都是这些潜在因素的唯一组合。

The dSprites dataset is a 2D shape dataset generated from six fundamentally independent latent factors (color, shape, scale, rotation, x and y positions), designed to evaluate the disentanglement properties of unsupervised learning methods. The dataset comprises 737,280 images, each representing a unique combination of these latent factors.

创建时间：

2017-05-09

原始信息汇总

dSprites - Disentanglement testing Sprites dataset

数据集描述

dSprites是一个用于评估无监督学习方法解耦性质的数据集，包含2D形状的图像，这些图像由6个基础的独立潜在因子生成。这些潜在因子包括颜色、形状、比例、旋转、x位置和y位置。

潜在因子值

颜色：白色
形状：正方形、椭圆、心形
比例：6个值，线性分布在[0.5, 1]之间
旋转：40个值，范围在[0, 2π]
x位置：32个值，范围在[0, 1]
y位置：32个值，范围在[0, 1]

数据集结构

imgs: 737280张图像，每张图像大小为64x64像素，格式为uint8
latents_values: 737280行6列的浮点数矩阵，表示潜在因子的值
latents_classes: 737280行6列的整数矩阵，表示潜在因子值的索引
metadata: 包含额外信息，如可能的潜在因子值

数据集用途

该数据集用于测试无监督模型恢复上述基础潜在因子的能力，并评估模型的解耦质量。

搜集汇总

数据集介绍

构建方式

dSprites数据集通过程序化生成的方式构建，基于六个独立的潜在因子：颜色、形状、尺度、旋转角度以及x和y位置。这些因子在所有可能的组合中被逐一变化，确保每个组合仅出现一次，从而生成了总数为737,280的图像。数据集的设计旨在最小化潜在因子变化时的像素差异，确保每张图像的唯一性，且未添加任何噪声。

使用方法

dSprites数据集主要用于评估无监督学习模型在解耦特性方面的表现。用户可以通过加载NPZ或HDF5格式的数据文件，访问包含的图像、潜在因子值及其分类索引。数据集的固定顺序和潜在因子值的明确映射使得模型能够直接用于解耦特性的评估和训练，特别适用于如beta-VAE等模型的研究与开发。

背景与挑战

背景概述

dSprites数据集由Loic Matthey、Irina Higgins、Demis Hassabis和Alexander Lerchner于2017年创建，旨在评估无监督学习方法的解耦（disentanglement）特性。该数据集包含了由6个独立潜在因子生成的2D形状图像，这些因子包括颜色、形状、尺度、旋转以及x和y位置。所有潜在因子的组合均被精确地呈现一次，共生成737,280张图像。dSprites数据集的构建旨在为解耦学习提供一个标准化的测试平台，特别是在无监督学习领域，其对模型如何恢复潜在因子具有重要影响。

当前挑战

dSprites数据集的主要挑战在于其设计目的——评估无监督学习模型的解耦能力。解耦学习要求模型能够分离出数据生成过程中的独立因子，这在实际应用中极具挑战性，因为模型需要在没有明确监督的情况下识别和分离这些因子。此外，数据集的构建过程中也面临确保所有像素输出唯一且无噪声的挑战，这要求在生成图像时进行精细的控制和验证。

常用场景

经典使用场景

dSprites数据集在评估无监督学习模型的解耦能力方面具有经典应用。通过该数据集，研究者可以系统地测试模型对六个潜在因素（颜色、形状、尺度、旋转、x和y位置）的解耦效果。其独特的生成方式确保了所有潜在因素的组合都被唯一地表示，为模型提供了清晰且无噪声的基准。

解决学术问题

dSprites数据集解决了无监督学习中解耦表示学习的关键学术问题。通过提供明确的潜在因素及其组合，该数据集帮助研究者评估模型是否能够准确地分离和识别这些因素，从而推动了诸如beta-VAE等解耦学习方法的发展。其对解耦质量的量化评估为该领域的研究提供了重要的基准。

实际应用

在实际应用中，dSprites数据集为计算机视觉和机器学习领域的研究提供了基础工具。例如，在图像生成、特征提取和数据增强等任务中，该数据集的解耦特性使得模型能够更有效地学习图像的底层结构。此外，其在无监督学习中的应用也为自动化数据标注和图像理解提供了新的思路。

数据集最近研究