flux1.1-likert-scale-preference

Hugging Face2024-10-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Rapidata/flux1.1-likert-scale-preference

下载链接

链接失效反馈

官方服务：

资源简介：

Flux1.1 Likert Scale Text-to-Image Alignment Evaluation数据集用于评估文本到图像生成的对齐效果。数据集包含由Flux1.1模型生成的图像，基于特定的提示，并由标注者根据Likert量表（1-5分）对图像与提示的匹配程度进行评分。数据集包含约35.5k个评分，每个图像至少有30个评分，最终的评分是这些评分的加权平均值。数据集的特征包括图像、提示、用户ID、评分选项（1-5分）、加权平均评分、提示来源和标签。数据集的语言为英语，大小在1K到10K之间。

创建时间：

2024-10-25

原始信息汇总

Flux1.1 Likert Scale Text-to-Image Alignment Evaluation Dataset

概述

任务类别: 文本到图像
语言: 英语
数据集大小: 1K<n<10K
配置:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

数据集信息

特征:
- image: 图像
- prompt: 字符串
- uid: 64位整数
- 1: Not at all: 64位整数
- 2: A little: 64位整数
- 3: Moderately: 64位整数
- 4: Very well: 64位整数
- 5: Perfectly: 64位整数
- score: 64位浮点数
- prompt source: 字符串
- tag: 字符串
分割:
- train:
  - 字节数: 467753187.988
  - 样本数: 1124
下载大小: 470650143
数据集大小: 467753187.988

详细信息

注释: 注释者根据图像和提示进行1-5的Likert评分，评分选项为：1: Not at all, 2: A little, 3: Moderately, 4: Very well, 5: Perfectly。每个图像至少收集了30个响应，总计约35.5k个响应。score是响应的加权平均值。
文件格式: 数据可通过parquet文件、.csv文件和.zip文件下载，还提供了包含额外元数据的原始响应的.json文件。

使用方法

通过Huggingface datasets包加载数据集： python from datasets import load_dataset

ds = load_dataset("Rapidata/flux1.1-likert-scale-preference")

搜集汇总

数据集介绍

构建方式

Flux1.1 Likert Scale文本到图像对齐评估数据集的构建过程基于Flux1.1模型生成的图像，并结合了文本到图像生成基准中的提示。数据集通过展示图像和提示，要求标注者根据1-5的Likert量表对图像与提示的匹配程度进行评分。每个图像至少收集了30个响应，总计约35.5k个响应，最终得分是这些响应的加权平均值。

特点

该数据集的特点在于其专注于单一模型的评估，通过Likert量表揭示了模型的细微差异，突出了其强项和弱项。数据集包含图像、提示和评分，评分以1-5的等级表示，从‘完全不匹配’到‘完美匹配’。此外，数据集还提供了原始响应的元数据，便于深入分析。

使用方法

使用该数据集的最便捷方式是通过Huggingface的datasets包加载。用户可以通过简单的Python代码加载数据集，并利用其中的图像、提示和评分进行模型评估。此外，数据集还提供了CSV和ZIP格式的下载选项，以及包含详细元数据的JSON文件，方便用户根据需求进行定制化分析。

背景与挑战

背景概述

Flux1.1 Likert Scale Preference数据集由Rapidata团队于近期创建，旨在评估文本到图像生成模型Flux1.1的性能。该数据集基于Likert量表，通过收集大量用户反馈，深入分析模型在图像生成任务中的表现。数据集包含1124个样本，每个样本由图像、生成提示以及用户评分组成，评分范围从1到5，分别代表“完全不匹配”到“完美匹配”。该数据集的核心研究问题在于揭示Flux1.1模型在文本到图像生成任务中的强项与弱项，为模型优化提供数据支持。其影响力主要体现在为文本到图像生成领域提供了一种新的评估方法，推动了该领域的研究进展。

当前挑战

Flux1.1 Likert Scale Preference数据集在解决文本到图像生成模型评估问题时，面临的主要挑战在于如何确保评分的客观性与一致性。由于用户对图像与文本匹配度的主观判断存在差异，数据集构建过程中需通过大量样本和多轮评分来减少偏差。此外，数据集的构建还面临技术挑战，例如如何高效收集和处理超过35,000条用户反馈，并确保数据的完整性与可追溯性。这些挑战不仅要求高质量的标注流程，还需依赖强大的数据处理工具和平台支持，以确保数据集能够准确反映模型的真实性能。

常用场景

经典使用场景

Flux1.1 Likert Scale数据集在文本到图像生成模型的评估中扮演着关键角色。通过使用Likert量表，研究者能够细致地评估图像与生成提示之间的匹配程度。这种评估方法不仅提供了量化的评分，还揭示了模型在特定提示下的表现细节，从而帮助研究者深入理解模型的强项与弱点。

衍生相关工作

基于Flux1.1 Likert Scale数据集，研究者们开展了多项经典工作，包括模型性能的深入分析和优化策略的提出。这些工作不仅推动了文本到图像生成技术的发展，还为相关领域的学术研究提供了宝贵的参考和借鉴。

数据集最近研究