Dataset of text prompts and generation pairs

Name: Dataset of text prompts and generation pairs
Creator: U2IS, ENSTA Paris, Institut Polytechnique de Paris, Mirai, Imperial College London, NVIDIA
Published: 2024-12-04 18:03:52
License: 暂无描述

arXiv2024-12-04 更新2024-12-06 收录

下载链接：

http://arxiv.org/abs/2412.03178v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由U2IS, ENSTA Paris, Institut Polytechnique de Paris, Mirai, Imperial College London和NVIDIA共同创建，旨在支持文本到图像生成模型的不确定性量化研究。数据集包含文本提示和生成图像对，用于评估模型在处理不同提示时的不确定性。数据集的创建过程利用了大规模视觉语言模型（LVLMs）来提取生成图像的语义信息，并与原始提示进行比较。该数据集的应用领域包括偏差检测、版权保护和分布外检测，旨在提高文本到图像生成模型的可靠性和可信度。

This dataset was co-created by U2IS, ENSTA Paris, Institut Polytechnique de Paris, Mirai, Imperial College London, and NVIDIA, with the aim of supporting research on uncertainty quantification for text-to-image generation models. It comprises pairs of text prompts and their corresponding generated images, which are utilized to evaluate models' uncertainty when processing diverse prompts. The dataset creation process leverages Large Vision-Language Models (LVLMs) to extract semantic information from the generated images and compare it with the original prompts. Application domains of this dataset include bias detection, copyright protection, and out-of-distribution detection, with the objective of improving the reliability and trustworthiness of text-to-image generation models.

提供机构：

U2IS, ENSTA Paris, Institut Polytechnique de Paris, Mirai, Imperial College London, NVIDIA

创建时间：

2024-12-04

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在促进文本到图像生成模型中不确定性量化的研究。数据集包括一系列文本提示及其对应的生成图像对，这些提示涵盖了从自然语言描述到模糊和错误的输入等多种情况。通过使用GPT-4生成高质量的描述和LLAVA Next模型对不常见领域的图像进行标注，数据集确保了多样性和复杂性，从而能够全面评估模型在不同条件下的不确定性表现。

使用方法

该数据集适用于评估和改进文本到图像生成模型的不确定性量化方法。研究者可以使用该数据集来训练和测试新的不确定性估计技术，特别是那些基于大型视觉语言模型（LVLMs）的方法。通过比较不同模型在处理模糊、错误和对抗性提示时的表现，研究者可以深入理解模型在不同输入条件下的行为，并开发出更加鲁棒和可靠的生成模型。

背景与挑战

背景概述

文本提示与生成配对数据集（Dataset of text prompts and generation pairs）由U2IS、ENSTA Paris、Institut Polytechnique de Paris、Imperial College London和NVIDIA的研究人员创建，旨在量化文本到图像生成模型中的不确定性。该数据集的构建始于2024年，主要研究问题是评估和量化文本到图像生成模型在处理不同提示时的不确定性。通过引入基于提示的不确定性估计方法（PUNC），研究团队利用大型视觉语言模型（LVLMs）来更好地解决由提示语义和生成图像引起的不确定性。该数据集的创建对生成模型领域的研究具有重要影响，特别是在深度伪造预防、模型偏见检测和版权内容保护等应用中。

当前挑战

该数据集面临的挑战主要包括两个方面：一是解决领域问题中的挑战，即如何准确量化文本到图像生成模型中的不确定性，特别是在处理模糊、错误或不熟悉的提示时；二是构建过程中的挑战，包括如何设计有效的评估方法和如何选择合适的视觉语言模型来提取图像的语义信息。此外，数据集还需要应对计算效率和模型泛化能力的问题，以确保在不同设置下的广泛适用性。

常用场景

经典使用场景

数据集经典使用场景描述

解决学术问题

数据集解决学术问题描述

实际应用

数据集实际应用情况描述

数据集最近研究