CdSprites+

Name: CdSprites+
Creator: 捷克理工大学布拉格信息、机器人与控制论研究所
Published: 2023-11-24 22:00:22
License: 暂无描述

arXiv2023-11-24 更新2024-07-24 收录

下载链接：

https://github.com/gabinsane/multimodal-vae-comparison

下载链接

链接失效反馈

官方服务：

资源简介：

CdSprites+数据集是由捷克理工大学布拉格信息、机器人与控制论研究所创建的合成图像-文本数据集，旨在评估多模态变分自编码器（VAE）的生成能力。该数据集包含5个不同复杂度级别，每个级别根据特征数量（如形状、大小、颜色、位置和背景）进行区分。CdSprites+数据集支持快速数据生成和易于评估，适用于逐步增加复杂度以评估模型进展。此外，数据集的结构化设计允许自动化定性和定量评估，从而为多模态VAE模型的系统比较提供了有力工具。

The CdSprites+ dataset is a synthetic image-text dataset developed by the Institute of Information, Robotics and Cybernetics, Czech Technical University in Prague, with the goal of evaluating the generative capabilities of multimodal variational autoencoders (VAEs). This dataset comprises five distinct complexity levels, each distinguished by the number of features including shape, size, color, position and background. The CdSprites+ dataset enables rapid data generation and straightforward evaluation, making it suitable for assessing model progress through incrementally escalating complexity. Furthermore, the structured design of the dataset supports automated qualitative and quantitative evaluation, thus providing a robust tool for the systematic comparison of multimodal VAE models.

提供机构：

捷克理工大学布拉格信息、机器人与控制论研究所

创建时间：

2022-09-07

原始信息汇总

CdSprites+ 数据集概述

数据集描述

CdSprites+ 是一个用于多模态变分自编码器（VAE）比较的合成双模态（图像-文本）数据集。该数据集扩展了 dSprites 数据集，增加了自然语言描述和额外的特征，共有5个难度级别，每个级别基于不同的属性数量（形状、大小、颜色、位置和背景颜色）。

数据集结构

数据集分为5个难度级别，每个级别包含图像和相应的文本描述。图像和文本数据按照语义匹配的方式组织。

数据集下载

数据集可以通过以下链接下载不同难度级别的版本：

下载后，数据集应放置在 ./data/CdSpritesplus 目录中。

数据集生成

用户也可以自行生成数据集。生成所有级别的命令如下： bash cd ~/multimodal-vae-comparison/multimodal_compare/data_proc python ./cdSprites.py

生成特定级别的命令如下： bash cd ~/multimodal-vae-comparison/multimodal_compare/data_proc python ./cdSprites.py --level 4

数据集使用

数据集用于训练和评估多模态VAE模型。训练和评估的具体步骤在文档中有详细说明。

数据集评估

训练完成后，可以使用以下命令进行评估： bash cd ~/multimodal-vae-comparison/multimodal_compare python eval/eval_cdsprites.py --model model_dir_name --level 2

评估结果将显示在终端中，并保存为 cdsprites_stats.txt 文件。

数据集领导者板

数据集的领导者板展示了不同模型在CdSprites+数据集上的表现。每个模型都有相应的预训练权重和配置文件，可以用于复现结果。

Level 1

Pos.	Model	Obj.	Accuracy (Txt→Img) [%]	Accuracy (Img→Txt) [%]	Joint Accuracy [%]	Weights	Config
1.	MMVAE	ELBO	47(14)	64 (3)	17 (10)	Link	Link
2.	MVAE	ELBO	52 (3)	63 (8)	5 (9)	Link	Link
3.	MoPoE	ELBO	33 (3)	10 (17)	16 (27)	Link	Link
4.	DMVAE	ELBO	33 (4)	4 (5)	4 (6)	Link	Link

Level 2

Pos.	Model	Obj.	Accuracy (Txt→Img) [%]	Accuracy (Img→Txt) [%]	Joint Accuracy [%]	Weights	Config
1.	MVAE	ELBO	16 (1)	55 (27)	1 (1)	Link	Link
2.	MMVAE	ELBO	18 (4)	41 (20)	3 (3)	Link	Link
3.	MoPoE	ELBO	10 (3)	8 (7)	1 (1)	Link	Link
4.	DMVAE	ELBO	15 (2)	4 (1)	0 (0)	Link	Link

Level 3

Pos.	Model	Obj.	Accuracy (Txt→Img) [%]	Accuracy (Img→Txt) [%]	Joint Accuracy [%]	Weights	Config
1.	MVAE	ELBO	10 (1)	30 (10)	1 (1)	Link	Link
2.	MMVAE	ELBO	12 (2)	25 (10)	2 (2)	Link	Link
3.	MoPoE	ELBO	8 (2)	5 (5)	1 (1)	Link	Link
4.	DMVAE	ELBO	9 (1)	3 (1)	0 (0)	Link	Link

5,000+

优质数据集

54 个

任务类型

进入经典数据集