CdSprites+
收藏CdSprites+ 数据集概述
数据集描述
CdSprites+ 是一个用于多模态变分自编码器(VAE)比较的合成双模态(图像-文本)数据集。该数据集扩展了 dSprites 数据集,增加了自然语言描述和额外的特征,共有5个难度级别,每个级别基于不同的属性数量(形状、大小、颜色、位置和背景颜色)。
数据集结构
数据集分为5个难度级别,每个级别包含图像和相应的文本描述。图像和文本数据按照语义匹配的方式组织。
数据集下载
数据集可以通过以下链接下载不同难度级别的版本:
下载后,数据集应放置在 ./data/CdSpritesplus 目录中。
数据集生成
用户也可以自行生成数据集。生成所有级别的命令如下: bash cd ~/multimodal-vae-comparison/multimodal_compare/data_proc python ./cdSprites.py
生成特定级别的命令如下: bash cd ~/multimodal-vae-comparison/multimodal_compare/data_proc python ./cdSprites.py --level 4
数据集使用
数据集用于训练和评估多模态VAE模型。训练和评估的具体步骤在文档中有详细说明。
数据集评估
训练完成后,可以使用以下命令进行评估: bash cd ~/multimodal-vae-comparison/multimodal_compare python eval/eval_cdsprites.py --model model_dir_name --level 2
评估结果将显示在终端中,并保存为 cdsprites_stats.txt 文件。
数据集领导者板
数据集的领导者板展示了不同模型在CdSprites+数据集上的表现。每个模型都有相应的预训练权重和配置文件,可以用于复现结果。
Level 1
| Pos. | Model | Obj. | Accuracy (Txt→Img) [%] | Accuracy (Img→Txt) [%] | Joint Accuracy [%] | Weights | Config |
|---|---|---|---|---|---|---|---|
| 1. | MMVAE | ELBO | 47(14) | 64 (3) | 17 (10) | Link | Link |
| 2. | MVAE | ELBO | 52 (3) | 63 (8) | 5 (9) | Link | Link |
| 3. | MoPoE | ELBO | 33 (3) | 10 (17) | 16 (27) | Link | Link |
| 4. | DMVAE | ELBO | 33 (4) | 4 (5) | 4 (6) | Link | Link |
Level 2
| Pos. | Model | Obj. | Accuracy (Txt→Img) [%] | Accuracy (Img→Txt) [%] | Joint Accuracy [%] | Weights | Config |
|---|---|---|---|---|---|---|---|
| 1. | MVAE | ELBO | 16 (1) | 55 (27) | 1 (1) | Link | Link |
| 2. | MMVAE | ELBO | 18 (4) | 41 (20) | 3 (3) | Link | Link |
| 3. | MoPoE | ELBO | 10 (3) | 8 (7) | 1 (1) | Link | Link |
| 4. | DMVAE | ELBO | 15 (2) | 4 (1) | 0 (0) | Link | Link |



