DesignBench

github2024-12-19 更新2024-12-20 收录

下载链接：

https://github.com/google-deepmind/proactive_t2i_agents

下载链接

链接失效反馈

官方服务：

资源简介：

DesignBench数据集包含30张不同物体和场景的图像，图像来源包括www.unsplash.com、www.pexels.com和www.freepik.com。数据集中有8张包含动物的图像，9张包含人类或部分人类形象的图像，15张仅包含无生命物体的图像，以及2张仅包含场景的图像。每张图像包含1到8个主体，拍摄条件、环境和角度各不相同。数据集还包括一个名为prompts_and_classes.json的文件，其中包含每张图像的长详细提示和短简洁提示。

The DesignBench dataset consists of 30 images of various objects and scenes, sourced from www.unsplash.com, www.pexels.com, and www.freepik.com. Among them, 8 images contain animals, 9 images feature humans or partial human figures, 15 images only depict inanimate objects, and 2 images solely showcase scenes. Each image includes 1 to 8 subjects, with varying shooting conditions, environments and angles. The dataset also contains a file named prompts_and_classes.json, which holds detailed long prompts and concise short prompts for each image.

创建时间：

2024-12-07

原始信息汇总

DesignBench 数据集

数据信息

数据集包含30张图像，涵盖不同物体和场景。
图像来源：www.unsplash.com, www.pexels.com, www.freepik.com。
图像分类：
- 8张包含动物。
- 9张包含人类或部分人类。
- 15张包含无生命物体。
- 2张仅包含场景。
每张图像包含1-8个主体。
图像在不同条件、环境和角度下拍摄。
包含文件 dataset/prompts_and_classes.json，其中每张图像有两个类型的提示：详细提示和简短提示。

数据访问

dataset/prompts_and_classes.json 文件包含所有图像的名称、参考链接以及每张图像的简短和详细提示。
图像已从原始形式裁剪，可通过 dataset/images/ 直接下载裁剪版本。

许可证

Unsplash：可免费用于商业和非商业用途，无需许可或归属。
Pexels：可免费用于个人和商业用途，无需归属。
FreePik：可使用资源而无需归功于作者，许可证在订阅到期后仍然有效。

许可证

软件：Apache License 2.0。
其他材料：Creative Commons Attribution 4.0 International License (CC-BY)。

搜集汇总

数据集介绍

构建方式

DesignBench数据集的构建旨在为多轮文本到图像生成任务提供一个基准，以解决用户提示不明确或开放式的问题。该数据集包含30张从Unsplash、Pexels和Freepik等平台获取的图像，涵盖了动物、人类、无生命物体和场景等多种类别。每张图像均配有详细和简短两种类型的提示，以模拟用户在不同情境下的输入需求。这些提示用于实验，旨在评估主动式文本到图像生成代理在不确定性情况下的表现。

特点

DesignBench数据集的显著特点在于其多样性和实用性。图像内容涵盖了从动物到人类、无生命物体及场景的广泛类别，且每张图像都附有详细和简短的提示，为模型提供了丰富的训练和测试数据。此外，数据集中的图像来自多个知名平台，确保了图像质量和版权的合法性。这些特点使得DesignBench成为评估和优化文本到图像生成模型的理想选择。

使用方法

DesignBench数据集的使用方法简便且灵活。用户可以通过访问`dataset/prompts_and_classes.json`文件获取图像的名称、参考链接以及对应的详细和简短提示。此外，用户可以直接下载`dataset/images/`目录下的裁剪图像，以便快速开始实验。数据集的提示设计旨在模拟真实用户输入，适用于多轮文本到图像生成任务的训练和评估，尤其适用于主动式生成代理的研究与开发。

背景与挑战

背景概述

DesignBench数据集由DeepMind Technologies Limited于2024年创建，旨在解决多轮文本到图像生成中的不确定性问题。该数据集的核心研究问题是如何通过主动式代理在用户提示不明确的情况下，通过提问和展示可解释的信念图来帮助用户精确表达其意图。DesignBench包含30张来自不同来源的图像，涵盖动物、人类、无生命物体和场景等多种类别，每张图像配有详细和简短的提示。该数据集的创建不仅推动了文本到图像生成技术的发展，还为艺术家和设计师提供了一个有效的基准测试平台，展示了其在提升生成模型性能方面的潜力。

当前挑战

DesignBench数据集面临的挑战主要集中在两个方面。首先，如何有效处理用户提示的不明确性，确保生成模型能够准确理解用户的意图，这是文本到图像生成领域的一个长期难题。其次，数据集的构建过程中，如何从不同来源获取高质量且多样化的图像，并确保这些图像在版权和使用许可上的合规性，也是一个重要的挑战。此外，如何通过自动化评估方法和人类研究验证主动式代理的有效性，进一步提升了数据集的应用难度。

常用场景

经典使用场景

DesignBench数据集在多轮文本到图像生成任务中展现了其经典应用场景。该数据集通过提供包含不同对象和场景的30张图像，以及每张图像对应的详细和简短的提示，支持了主动式文本到图像生成代理的设计与验证。这些代理能够在用户提示不明确时，主动提出澄清问题，并通过可解释的信念图展示其对用户意图的理解，从而显著提升生成图像的质量。

衍生相关工作

DesignBench数据集的发布激发了大量相关研究工作。许多研究者基于该数据集开发了新的多轮交互式生成模型，探索了不同类型的澄清问题和信念图表示方法。此外，该数据集还被用于评估和比较不同生成模型的性能，推动了文本到图像生成领域的技术进步和标准化。

数据集最近研究