five

open-image-preferences-v1-results

收藏
Hugging Face2024-12-09 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/data-is-better-together/open-image-preferences-v1-results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含10,000个文本到图像的偏好对,旨在评估图像生成模型在各种常见图像类别中的性能。这些对基于具有不同难度级别的提示生成,源自从'fal/imgsys-results'数据集提取的提示。社区被要求为每个提示在两个生成的图像之间标注偏好。数据集包括字段、问题、元数据、向量和标注指南。数据集可以通过Argilla加载,或直接使用`datasets`库。数据集结构为单个分割,名为'train'。
创建时间:
2024-11-28
原始信息汇总

Dataset Card for image-preferences-results

概述

  • 数据集名称: image-preferences-results
  • 大小类别: 10K<n<100K
  • 标签: rlfh, argilla, human-feedback
  • 许可证: apache-2.0

目标

该项目旨在创建10K文本到图像偏好对。这些对可以用于评估图像生成模型在各种常见图像类别上的性能,基于不同难度的提示。

数据集结构

字段 (Fields)

字段名称 标题 类型 必需 Markdown
images Images custom True

问题 (Questions)

问题名称 标题 类型 必需 描述 值/标签
preference Which image is better according to prompt adherence and aesthetics? label_selection True Take a look at the guidelines (bottom left corner) to get more familiar with the project examples and our community. [image_1, image_2, both_good, both_bad, toxic_content]

元数据 (Metadata)

元数据名称 标题 类型 对标注者可见
model_1 model_1 - True
model_2 model_2 - True
evolution evolution - True

向量 (Vectors)

向量名称 标题 维度
prompt prompt [1, 256]

数据实例

Argilla 中的数据实例

json { "_server_id": "c2306976-5e44-4ad4-b2ce-8a510ec6086b", "fields": { "images": { "image_1": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_dev/3368.jpg", "image_2": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_sd/3368.jpg", "prompt": "a bustling manga street, devoid of vehicles, detailed with vibrant colors and dynamic line work, characters in the background adding life and movement, under a soft golden hour light, with rich textures and a lively atmosphere, high resolution, sharp focus" } }, "id": "3368-quality", "metadata": { "category": "Manga", "evolution": "quality", "model_1": "dev", "model_2": "sd", "sub_category": "detailed" }, "responses": { "preference": [ { "user_id": "50b9a890-173b-4999-bffa-fc0524ba6c63", "value": "both_good" }, { "user_id": "caf19767-2989-4b3c-a653-9c30afc6361d", "value": "image_1" }, { "user_id": "ae3e20b2-9aeb-4165-af54-69eac3f2448b", "value": "image_1" } ] }, "status": "completed", "suggestions": {}, "vectors": {} }

HuggingFace datasets 中的数据实例

json { "_server_id": "c2306976-5e44-4ad4-b2ce-8a510ec6086b", "category": "Manga", "evolution": "quality", "id": "3368-quality", "images": { "image_1": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_dev/3368.jpg", "image_2": "https://huggingface.co/datasets/data-is-better-together/image-preferences-filtered/resolve/main/image_quality_sd/3368.jpg", "prompt": "a bustling manga street, devoid of vehicles, detailed with vibrant colors and dynamic line work, characters in the background adding life and movement, under a soft golden hour light, with rich textures and a lively atmosphere, high resolution, sharp focus" }, "model_1": "dev", "model_2": "sd", "preference.responses": [ "both_good", "image_1", "image_1" ], "preference.responses.status": [ "submitted", "submitted", "submitted" ], "preference.responses.users": [ "50b9a890-173b-4999-bffa-fc0524ba6c63", "caf19767-2989-4b3c-a653-9c30afc6361d", "ae3e20b2-9aeb-4165-af54-69eac3f2448b" ], "prompt": null, "status": "completed", "sub_category": "detailed" }

数据分割

数据集包含一个分割,即 train

数据集创建

标注指南

图像偏好任务

目标是收集关于图像的偏好。我们想知道哪些图像在关系中是最好的。这样我们就可以训练一个AI模型来生成像最好的图像。

最佳图像的定义

最佳图像应包含提示的所有属性,并且在提示的关系中具有美学上的吸引力。

使用数据集

使用 Argilla

python import argilla as rg

ds = rg.Dataset.from_hub("data-is-better-together/image-preferences-results", settings="auto")

使用 datasets

python from datasets import load_dataset

ds = load_dataset("data-is-better-together/image-preferences-results")

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建旨在通过收集10,000对文本到图像的偏好配对,评估图像生成模型在多种常见图像类别中的表现。构建过程基于从[fal/imgsys-results](https://huggingface.co/datasets/fal/imgsys-results)提取的提示,这些提示经过复杂性和质量的优化,适用于不同的图像类别。随后,社区成员被邀请对每个提示生成的两张图像进行偏好标注,最终形成了10,000对偏好标注数据。
特点
该数据集的主要特点在于其多样性和复杂性。数据集包含了多种图像类别,每个类别都有不同的提示难度,从而能够全面评估图像生成模型的性能。此外,数据集的标注过程通过社区参与,确保了标注的多样性和代表性,使得数据集在美学和提示遵循方面具有较高的参考价值。
使用方法
该数据集可以通过Argilla或HuggingFace的`datasets`库进行加载和使用。使用Argilla时,可以通过`pip install argilla --upgrade`安装Argilla,并使用提供的代码将数据集加载到Argilla服务器中进行探索和标注。使用`datasets`库时,可以通过`pip install datasets --upgrade`安装,并使用`load_dataset`函数直接加载数据集。数据集的结构包括图像、提示、模型信息和偏好标注等字段,适合用于训练和评估图像生成模型。
背景与挑战
背景概述
在图像生成模型的评估领域,open-image-preferences-v1-results数据集应运而生,旨在通过10,000对文本到图像的偏好数据来评估不同图像生成模型的性能。该数据集由社区参与标注,基于[fal/imgsys-results](https://huggingface.co/datasets/fal/imgsys-results)的提示,这些提示经过复杂性和质量的演化,涵盖了多种图像类别。通过这种方式,研究人员能够更精确地比较不同模型在生成图像时的表现,从而推动图像生成技术的发展。
当前挑战
该数据集的构建面临多项挑战。首先,如何设计并演化出既复杂又高质量的提示,以确保评估的全面性和准确性,是一个重要问题。其次,社区标注的多样性和一致性也是一个挑战,因为不同标注者的审美和理解可能存在差异。此外,数据集的规模和多样性要求在有限的资源下进行高效的标注和管理,确保数据的质量和可用性。
常用场景
经典使用场景
该数据集主要用于评估文本生成图像模型的性能,特别是在不同复杂度和质量的提示下生成图像的偏好比较。通过收集10,000对图像偏好数据,研究者可以分析模型在不同提示下的表现,从而优化图像生成算法。
解决学术问题
该数据集解决了图像生成领域中模型性能评估的难题,特别是在复杂提示下的图像生成质量评估。通过提供大量的图像偏好数据,研究者能够更准确地比较不同模型在生成图像时的表现,从而推动图像生成技术的进步。
衍生相关工作
基于该数据集,研究者可以进一步开发和优化图像生成模型,特别是在多模态学习和生成对抗网络(GAN)领域。此外,该数据集还可以用于研究用户对不同风格和复杂度图像的偏好,从而为个性化图像生成提供数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作