CoDraw, i-CLEVR

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/Maluuba/GeNeVA_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于GeNeVA任务的CoDraw和i-CLEVR数据集，这些数据集用于生成和修改基于连续语言指令的图像。

The CoDraw and i-CLEVR datasets for the GeNeVA task are utilized for generating and modifying images based on continuous language instructions.

创建时间：

2019-05-09

原始信息汇总

数据集概述

数据集名称

CoDraw
i-CLEVR

数据集用途

用于GeNeVA任务，该任务旨在基于持续的语言指令生成和修改图像。

数据集内容

GeNeVA-v1.zip：包含以下文件
- data.rar：预生成的数据文件，适用于两个数据集。
- CoDraw_images.rar：CoDraw图像，每个场景的json文件。
- i-CLEVR.rar：i-CLEVR场景图像、场景json文件、背景图像。

数据集生成步骤

下载并解压GeNeVA-v1.zip。
使用rar命令解压各个.rar文件到指定目录。
运行Python脚本生成HDF5文件：
- 词汇文件生成：python scripts/joint_codraw_iclevr/generate_glove_file.py
- CoDraw数据集生成：
  - python scripts/codraw_dataset_generation/codraw_add_data_to_raw.py
  - python scripts/codraw_dataset_generation/codraw_raw_to_hdf5.py
  - python scripts/codraw_dataset_generation/codraw_object_detection.py
- i-CLEVR数据集生成：
  - python scripts/iclevr_dataset_generation/iclevr_add_data_to_raw.py
  - python scripts/iclevr_dataset_generation/iclevr_raw_to_hdf5.py
  - python scripts/iclevr_dataset_generation/iclevr_object_detection.py

引用信息

论文："Tell, Draw, and Repeat: Generating and modifying images based on continual linguistic instruction"
作者：Alaaeldin El-Nouby, Shikhar Sharma, Hannes Schulz, Devon Hjelm, Layla El Asri, Samira Ebrahimi Kahou, Yoshua Bengio, Graham W. Taylor
年份：2018
链接：arXiv preprint arXiv:1811.09845

bibtex @article{elnouby2018tell_draw_repeat, author = {El{-}Nouby, Alaaeldin and Sharma, Shikhar and Schulz, Hannes and Hjelm, Devon and El Asri, Layla and Ebrahimi Kahou, Samira and Bengio, Yoshua and Taylor, Graham W.}, title = {Tell, Draw, and Repeat: Generating and modifying images based on continual linguistic instruction}, journal = {CoRR}, volume = {abs/1811.09845}, year = {2018}, url = {http://arxiv.org/abs/1811.09845}, archivePrefix = {arXiv}, eprint = {1811.09845} }

搜集汇总

数据集介绍

构建方式

CoDraw和i-CLEVR数据集的构建过程依托于GeNeVA任务，旨在通过连续的语言指令生成和修改图像。数据集的生成代码通过一系列脚本实现，包括环境配置、数据下载与解压、以及HDF5文件的生成。具体步骤涉及安装Miniconda、克隆代码库、创建并激活conda环境、下载外部数据文件，并通过Python脚本将原始数据转换为HDF5格式。这一过程确保了数据的高效存储与处理，为后续的模型训练提供了坚实的基础。

特点

CoDraw和i-CLEVR数据集的特点在于其多模态性质，结合了语言指令与视觉图像的生成任务。CoDraw专注于基于对话的场景生成，而i-CLEVR则侧重于复杂场景的构建与推理。两个数据集均提供了丰富的场景描述与对应的图像数据，支持生成对抗网络（GAN）和对象检测与定位模型的训练。此外，数据集还包含了预生成的数据文件，便于研究人员快速开展实验。

使用方法

使用CoDraw和i-CLEVR数据集时，研究人员需首先完成环境配置与数据下载。通过运行提供的Python脚本，可以将原始数据转换为HDF5格式，便于模型训练与评估。数据集支持多种任务，包括图像生成、对象检测与定位等。研究人员可根据需求选择相应的脚本进行处理，并利用预生成的数据文件加速实验进程。使用过程中需遵循Microsoft的开源代码行为准则，并引用相关论文以尊重数据集的贡献者。

背景与挑战

背景概述

CoDraw和i-CLEVR数据集由微软研究院的Alaaeldin El-Nouby等研究人员于2018年提出，旨在支持生成式神经视觉艺术家（GeNeVA）任务的研究。该任务的核心研究问题是通过连续的语言指令生成和修改图像，从而推动自然语言处理与计算机视觉的交叉领域发展。数据集的设计灵感来源于人类在绘画过程中不断接收和响应语言指令的能力，为研究多模态学习提供了重要的实验平台。CoDraw和i-CLEVR的发布为图像生成、语言理解和多模态交互等领域的研究提供了丰富的数据资源，推动了相关技术的进步。

当前挑战

CoDraw和i-CLEVR数据集在解决多模态图像生成任务中面临诸多挑战。首先，如何准确地将复杂的语言指令映射到图像生成过程是一个核心难题，这要求模型具备强大的语义理解和视觉表达能力。其次，数据集的构建过程涉及大量的人工标注和场景设计，确保数据的一致性和多样性需要耗费大量资源。此外，生成高质量且符合语言描述的图像对模型的泛化能力和细节处理能力提出了极高要求。这些挑战不仅体现在模型训练和评估中，也贯穿于数据集的整个构建过程，为相关研究提供了重要的技术探索方向。

常用场景

经典使用场景

CoDraw和i-CLEVR数据集在生成式神经网络视觉艺术（GeNeVA）任务中扮演了重要角色。这些数据集主要用于研究基于连续语言指令的图像生成与修改。通过模拟人类与机器之间的交互，CoDraw数据集提供了一个协作绘图的环境，而i-CLEVR数据集则专注于复杂场景的生成与理解。这些数据集为研究者提供了一个标准化的平台，用于评估模型在图像生成和语言理解方面的性能。

衍生相关工作

CoDraw和i-CLEVR数据集的发布，催生了一系列相关的研究工作。基于这些数据集，研究者提出了多种改进的生成模型和语言理解算法。例如，一些工作专注于提升模型在复杂场景中的生成能力，而另一些则探索了多模态学习的新方法。这些研究不仅推动了生成式模型的发展，还为图像生成与语言理解的结合提供了新的思路。

数据集最近研究