playgroundai/MJHQ-30K

Name: playgroundai/MJHQ-30K
Creator: playgroundai
Published: 2024-06-28 14:00:30
License: 暂无描述

Hugging Face2024-06-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/playgroundai/MJHQ-30K

下载链接

链接失效反馈

官方服务：

资源简介：

MJHQ-30K基准测试数据集用于自动评估模型的美学质量。该数据集包含10个常见类别，每个类别有3000个样本，总计30000个样本。数据集通过美学评分和CLIP评分确保图像质量和图像文本对齐。此外，数据集在每个类别内保持多样性。数据集的特征包括图像和标签，标签分为10个类别。数据集的分割为测试集，包含30000个样本。数据集的下载大小为8838465412字节，数据集大小为9764107710字节。数据集的任务类别为文本到图像，语言为英语，规模类别为10K<n<100K。

提供机构：

playgroundai

原始信息汇总

数据集概述

数据集信息

特征:
- image: 图像数据
- label: 类别标签，包括以下类别：
  - 0: animals
  - 1: art
  - 2: fashion
  - 3: food
  - 4: indoor
  - 5: landscape
  - 6: logo
  - 7: people
  - 8: plants
  - 9: vehicles
数据分割:
- test: 包含30000个样本，总大小为9764107710字节
下载大小: 8838465412字节
数据集大小: 9764107710字节

配置

默认配置:
- 数据文件:
  - test: 路径为data/test-*

任务类别

text-to-image

语言

en

数据集大小类别

10K<n<100K

数据集下载

下载mjhq30k_imgs.zip并解压到按类别划分的文件夹结构中。

元数据

meta_data.json包含所有图像的类别和提示信息。

FID计算

使用clean-fid计算生成图像与参考图像之间的FID。

贡献者

数据集由Playground研究团队整理。

搜集汇总

数据集介绍

构建方式

MJHQ-30K数据集的构建采取了对Midjourney中的高质量图像进行筛选与分类的方式，共包含10个常见类别，每个类别包含3000个样本。在确保图像质量的基础上，通过审美评分和CLIP评分进一步筛选出高质量的图像，同时在每个类别内部保证数据的多样性。

特点

该数据集的特点在于其高质量、多样化的图像内容，以及明确的10个类别划分，使得数据集在评估模型审美质量方面具有较高的有效性和可靠性。此外，数据集的元数据文件包含了每个图像的类别和提示信息，便于进行图像生成和评估。

使用方法

使用MJHQ-30K数据集时，首先需要下载并解压数据集，根据元数据文件中的提示信息生成图像。然后，可以利用clean-fid工具计算生成的图像与参考图像之间的FID分数，以此评估模型的审美质量。

背景与挑战

背景概述

MJHQ-30K数据集，由Playground研究团队于2024年精心构建，旨在为自动评估模型审美质量提供一个新的基准。该数据集从Midjourney中筛选出高质量图片，涵盖10个常见类别，每个类别包含3000个样本。通过采用审美分数和CLIP分数，确保了图像的高质量及图像与文本的高度一致性。MJHQ-30K的推出，为文本到图像生成领域的审美质量评估提供了重要工具，其研究成果已在相关科学文献中被引用，对推动该领域的技术进步与创新发展具有显著影响。

当前挑战

在构建MJHQ-30K数据集过程中，研究人员面临了多项挑战。首先，确保数据集内图片的高审美质量与一致性是一项艰巨任务。其次，数据集的多样性保证，即在每个类别中图片的多样性，也是一大挑战。此外，为适应不同模型评估需求，数据集的标准化和可扩展性也是必须考虑的问题。在领域问题上，MJHQ-30K数据集解决了如何客观衡量文本到图像生成模型审美质量的问题，这对于提升图像生成技术的实用性和用户体验至关重要。

常用场景

经典使用场景

在图像生成模型的美学质量评估领域，MJHQ-30K数据集提供了自动化的评价基准。该数据集通过高质量图像的FID（Fréchet Inception Distance）计算，旨在衡量模型生成图像的美学品质。其经典使用场景在于，研究者可以利用该数据集对模型进行训练和测试，以提升模型在图像生成任务中的美学表现。

衍生相关工作

基于MJHQ-30K数据集，研究者们已经开展了一系列相关工作，如Playground v2模型的美学质量评估。这些工作不仅推动了文本到图像生成技术的进步，还促进了图像质量评价方法的创新，为图像生成领域的学术研究和实际应用提供了新的视角和工具。

数据集最近研究