open-image-preferences-v1-results

Hugging Face2024-12-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/data-is-better-together/open-image-preferences-v1-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含10,000个文本到图像的偏好对，旨在评估图像生成模型在各种常见图像类别中的性能。这些对基于具有不同难度级别的提示生成，源自从'fal/imgsys-results'数据集提取的提示。社区被要求为每个提示在两个生成的图像之间标注偏好。数据集包括字段、问题、元数据、向量和标注指南。数据集可以通过Argilla加载，或直接使用`datasets`库。数据集结构为单个分割，名为'train'。

创建时间：

2024-11-28

原始信息汇总

Dataset Card for image-preferences-results

概述

数据集名称: image-preferences-results
大小类别: 10K<n<100K
标签: rlfh, argilla, human-feedback
许可证: apache-2.0

目标

该项目旨在创建10K文本到图像偏好对。这些对可以用于评估图像生成模型在各种常见图像类别上的性能，基于不同难度的提示。

数据集结构

字段 (Fields)

字段名称	标题	类型	必需	Markdown
images	Images	custom	True

问题 (Questions)

问题名称	标题	类型	必需	描述	值/标签
preference	Which image is better according to prompt adherence and aesthetics?	label_selection	True	Take a look at the guidelines (bottom left corner) to get more familiar with the project examples and our community.	[image_1, image_2, both_good, both_bad, toxic_content]

元数据 (Metadata)

元数据名称	标题	值	对标注者可见
model_1	model_1	-	True
model_2	model_2	-	True
evolution	evolution	-	True

向量 (Vectors)

向量名称	标题	维度
prompt	prompt	[1, 256]

数据实例

Argilla 中的数据实例

json { "_server_id": "c2306976-5e44-4ad4-b2ce-8a510ec6086b", "fields": { "images": { "image_1": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_dev/3368.jpg", "image_2": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_sd/3368.jpg", "prompt": "a bustling manga street, devoid of vehicles, detailed with vibrant colors and dynamic line work, characters in the background adding life and movement, under a soft golden hour light, with rich textures and a lively atmosphere, high resolution, sharp focus" } }, "id": "3368-quality", "metadata": { "category": "Manga", "evolution": "quality", "model_1": "dev", "model_2": "sd", "sub_category": "detailed" }, "responses": { "preference": [ { "user_id": "50b9a890-173b-4999-bffa-fc0524ba6c63", "value": "both_good" }, { "user_id": "caf19767-2989-4b3c-a653-9c30afc6361d", "value": "image_1" }, { "user_id": "ae3e20b2-9aeb-4165-af54-69eac3f2448b", "value": "image_1" } ] }, "status": "completed", "suggestions": {}, "vectors": {} }

HuggingFace `datasets` 中的数据实例

json { "_server_id": "c2306976-5e44-4ad4-b2ce-8a510ec6086b", "category": "Manga", "evolution": "quality", "id": "3368-quality", "images": { "image_1": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_dev/3368.jpg", "image_2": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_sd/3368.jpg", "prompt": "a bustling manga street, devoid of vehicles, detailed with vibrant colors and dynamic line work, characters in the background adding life and movement, under a soft golden hour light, with rich textures and a lively atmosphere, high resolution, sharp focus" }, "model_1": "dev", "model_2": "sd", "preference.responses": [ "both_good", "image_1", "image_1" ], "preference.responses.status": [ "submitted", "submitted", "submitted" ], "preference.responses.users": [ "50b9a890-173b-4999-bffa-fc0524ba6c63", "caf19767-2989-4b3c-a653-9c30afc6361d", "ae3e20b2-9aeb-4165-af54-69eac3f2448b" ], "prompt": null, "status": "completed", "sub_category": "detailed" }

数据分割

数据集包含一个分割，即 train。

数据集创建

标注指南

图像偏好任务

目标是收集关于图像的偏好。我们想知道哪些图像在关系中是最好的。这样我们就可以训练一个AI模型来生成像最好的图像。

最佳图像的定义

最佳图像应包含提示的所有属性，并且在提示的关系中具有美学上的吸引力。

使用数据集

使用 Argilla

python import argilla as rg

ds = rg.Dataset.from_hub("data-is-better-together/image-preferences-results", settings="auto")

使用 `datasets`

python from datasets import load_dataset

ds = load_dataset("data-is-better-together/image-preferences-results")

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在通过收集10,000对文本到图像的偏好配对，评估图像生成模型在多种常见图像类别中的表现。构建过程基于从[fal/imgsys-results](https://huggingface.co/datasets/fal/imgsys-results)提取的提示，这些提示经过复杂性和质量的优化，适用于不同的图像类别。随后，社区成员被邀请对每个提示生成的两张图像进行偏好标注，最终形成了10,000对偏好标注数据。

特点

该数据集的主要特点在于其多样性和复杂性。数据集包含了多种图像类别，每个类别都有不同的提示难度，从而能够全面评估图像生成模型的性能。此外，数据集的标注过程通过社区参与，确保了标注的多样性和代表性，使得数据集在美学和提示遵循方面具有较高的参考价值。

使用方法

该数据集可以通过Argilla或HuggingFace的`datasets`库进行加载和使用。使用Argilla时，可以通过`pip install argilla --upgrade`安装Argilla，并使用提供的代码将数据集加载到Argilla服务器中进行探索和标注。使用`datasets`库时，可以通过`pip install datasets --upgrade`安装，并使用`load_dataset`函数直接加载数据集。数据集的结构包括图像、提示、模型信息和偏好标注等字段，适合用于训练和评估图像生成模型。

背景与挑战

背景概述

在图像生成模型的评估领域，open-image-preferences-v1-results数据集应运而生，旨在通过10,000对文本到图像的偏好数据来评估不同图像生成模型的性能。该数据集由社区参与标注，基于[fal/imgsys-results](https://huggingface.co/datasets/fal/imgsys-results)的提示，这些提示经过复杂性和质量的演化，涵盖了多种图像类别。通过这种方式，研究人员能够更精确地比较不同模型在生成图像时的表现，从而推动图像生成技术的发展。

当前挑战

该数据集的构建面临多项挑战。首先，如何设计并演化出既复杂又高质量的提示，以确保评估的全面性和准确性，是一个重要问题。其次，社区标注的多样性和一致性也是一个挑战，因为不同标注者的审美和理解可能存在差异。此外，数据集的规模和多样性要求在有限的资源下进行高效的标注和管理，确保数据的质量和可用性。

常用场景

经典使用场景

该数据集主要用于评估文本生成图像模型的性能，特别是在不同复杂度和质量的提示下生成图像的偏好比较。通过收集10,000对图像偏好数据，研究者可以分析模型在不同提示下的表现，从而优化图像生成算法。

解决学术问题

该数据集解决了图像生成领域中模型性能评估的难题，特别是在复杂提示下的图像生成质量评估。通过提供大量的图像偏好数据，研究者能够更准确地比较不同模型在生成图像时的表现，从而推动图像生成技术的进步。

衍生相关工作

基于该数据集，研究者可以进一步开发和优化图像生成模型，特别是在多模态学习和生成对抗网络（GAN）领域。此外，该数据集还可以用于研究用户对不同风格和复杂度图像的偏好，从而为个性化图像生成提供数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集