image-preferences

Hugging Face2024-11-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/data-is-better-together/image-preferences

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个文本和图像特征，用于训练和评估模型。数据集分为训练集和清理后的数据集，分别包含14587和12752个样本。数据集的总下载大小为36164293205字节，总数据集大小为35958306699.51442字节。

创建时间：

2024-11-22

原始信息汇总

数据集概述

数据集信息

特征:
- quality_prompt: 字符串
- category: 字符串
- subcategory: 字符串
- style_prompt: 字符串
- simplified_prompt: 字符串
- __index_level_0__: 整数
- grouped_model_name: 字符串序列
- prompt: 字符串
- distilabel_metadata: 结构体
  - raw_input_image_gen_quality_dev: 结构体
    - prompt: 字符串
  - raw_input_image_gen_quality_sd: 结构体
    - prompt: 字符串
  - raw_input_image_gen_simplified_dev: 结构体
    - prompt: 字符串
  - raw_input_image_gen_simplified_sd: 结构体
    - prompt: 字符串
  - raw_output_image_gen_quality_dev: 结构体
    - image: 字符串
  - raw_output_image_gen_quality_sd: 结构体
    - image: 字符串
  - raw_output_image_gen_simplified_dev: 结构体
    - image: 字符串
  - raw_output_image_gen_simplified_sd: 结构体
    - image: 字符串
- image_quality_dev: 图像
- image_simplified_dev: 图像
- image_quality_sd: 图像
- image_simplified_sd: 图像

数据集分割

train:
- 样本数: 14587
- 字节数: 19166570224.552002
cleaned:
- 样本数: 12752
- 字节数: 16791736474.962416

数据集大小

下载大小: 36164293205
数据集大小: 35958306699.51442

配置

config_name: default
- 数据文件:
  - train: data/train-*
  - cleaned: data/cleaned-*

搜集汇总

数据集介绍

构建方式

Open Image Preferences数据集的构建过程基于文本到图像生成模型的性能评估需求。通过从fal/imgsys-results数据集中提取提示词，这些提示词根据复杂性和质量进行了优化，涵盖了多种图像类别。随后，社区成员被邀请对每个提示词生成的两张图像进行偏好标注，最终形成了包含10,000对偏好标注的数据集。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从动漫风格到像素艺术等多种图像类别。每个提示词都经过精心设计，以确保其复杂性和质量能够充分测试图像生成模型的性能。此外，数据集中的每对图像都经过社区成员的偏好标注，确保了数据的可靠性和实用性。

使用方法

Open Image Preferences数据集主要用于评估和比较不同文本到图像生成模型的性能。研究人员可以通过分析社区成员对不同生成图像的偏好，了解模型在生成复杂和高质量图像方面的表现。此外，该数据集还可用于训练和优化图像生成模型，提升其在多样化图像类别中的生成能力。

背景与挑战

背景概述

Open Image Preferences数据集由data-is-better-together团队于近期发布，旨在为文本到图像生成模型的性能评估提供高质量的偏好对数据。该数据集的核心研究问题在于如何通过多样化的文本提示生成图像，并基于社区标注的偏好对来评估不同模型的生成效果。数据集涵盖了广泛的图像类别和风格，包括动漫、像素艺术等，为图像生成领域的研究提供了丰富的实验数据。其发布不仅推动了文本到图像生成技术的发展，还为模型优化和评估提供了新的基准。

当前挑战

Open Image Preferences数据集在构建过程中面临多重挑战。首先，文本提示的多样性和复杂性要求生成模型能够处理不同难度级别的任务，这对模型的泛化能力提出了较高要求。其次，社区标注的偏好对需要确保一致性和准确性，以避免主观偏差对评估结果的影响。此外，数据集的规模和质量控制也是一个关键问题，如何在保证数据多样性的同时，确保每个偏好对的标注质量，是构建过程中的一大难题。这些挑战不仅影响了数据集的构建效率，也对后续模型评估的可靠性提出了更高的要求。

常用场景

经典使用场景

在图像生成模型的评估与优化中，Open Image Preferences数据集通过提供大量文本到图像的偏好对，成为研究者在模型性能比较和用户偏好分析中的关键工具。该数据集广泛应用于生成模型的质量评估，特别是在不同难度和风格的图像生成任务中，为模型调优提供了丰富的参考数据。

解决学术问题

Open Image Preferences数据集解决了图像生成模型在多样性和质量评估中的难题。通过提供基于用户偏好的标注数据，研究者能够更准确地评估模型在不同类别和风格下的表现，从而推动生成模型在复杂场景下的性能提升。该数据集为图像生成领域的研究提供了重要的数据支持，促进了模型优化和算法改进。

衍生相关工作

基于Open Image Preferences数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了更精准的图像生成模型评估方法，并提出了基于用户偏好的模型优化策略。此外，该数据集还推动了文本到图像生成领域的新算法研究，如多模态生成模型和个性化生成系统的开发，为相关领域的研究提供了重要的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集