RichHF-18K
收藏github2024-06-14 更新2024-06-19 收录
下载链接:
https://github.com/google-research-datasets/richhf-18k
下载链接
链接失效反馈官方服务:
资源简介:
RichHF-18K数据集包含了我们为CVPR24论文收集的丰富人类反馈标签,以及与标记图像相关联的原始文件名。该数据集包括主观评分(如美学评分)、人类标记的热图(如像素扭曲的伪影区域)和文本提示中的错位标记。数据集包含17,760个示例,采用Tensorflow示例格式,包括15,810个训练示例、995个开发示例和955个测试示例。
The RichHF-18K dataset encompasses a comprehensive collection of human feedback labels gathered for our CVPR24 paper, along with the original filenames associated with the annotated images. This dataset includes subjective ratings (such as aesthetic scores), human-annotated heatmaps (e.g., regions of pixel distortion artifacts), and misalignment markers in text prompts. Comprising 17,760 examples in Tensorflow example format, the dataset is divided into 15,810 training examples, 995 development examples, and 955 test examples.
创建时间:
2024-06-14
原始信息汇总
RichHF-18K Dataset Overview
Dataset Description
- Content: Rich human feedback labels for text-to-image generation.
- Size: 17,760 examples.
- Training: 15,810 examples.
- Development: 995 examples.
- Test: 955 examples.
- Format: Tensorflow Example format.
- Included Data:
- Filenames of original images from Pick-a-pic v1 dataset.
- Subjective scores (aesthetics score, artifact score, misalignment score, overall score).
- Heatmaps (artifact map, misalignment map).
- Token-level labels for misaligned tokens in the prompt (prompt_misalignment_label).
Data Fields
- filename: Original image filename.
- aesthetics_score: Aesthetics score.
- artifact_score: Artifact score.
- misalignment_score: Text-image misalignment score.
- overall_score: Overall score.
- artifact_map: Artifact heatmap.
- misalignment_map: Misalignment heatmap.
- prompt_misalignment_label: Token-level labels for misaligned tokens in the prompt.
Data Usage
- Loading: The tfrecord file can be loaded using
tf.data.TFRecordDataset. - Parsing and Matching: Detailed parsing and matching of misalignment labels to each token in the prompt can be found at Google Research GitHub repository.
Additional Notes
- The dataset does not contain the original images, only their filenames.
- All scores are the higher the better, indicating better quality or fewer artifacts.
搜集汇总
数据集介绍

构建方式
RichHF-18K数据集的构建基于对Pick-a-pic v1数据集中生成的图像进行详尽的人类反馈标注。这些标注包括主观评分(如美学评分)、人类标记的热图(如失真像素的区域)以及文本提示中的错位标记。数据集包含17,760个样本,采用Tensorflow Example格式,分为15,810个训练样本、995个开发样本和955个测试样本。值得注意的是,数据集仅包含图像的文件名,而非图像本身,用户需通过这些文件名从Pick-a-pic v1数据集中获取对应的图像。
特点
RichHF-18K数据集的显著特点在于其丰富的标注信息,涵盖了图像美学、失真区域和文本图像错位等多个维度。这些标注不仅提供了整体质量评分,还通过热图形式详细标记了图像中的失真区域和文本提示中的错位标记。此外,数据集采用Tensorflow Example格式存储,便于直接加载和处理。所有评分均遵循‘越高越好’的原则,为用户提供了清晰的质量评估标准。
使用方法
使用RichHF-18K数据集时,用户需首先安装Git Large File Storage (LFS)以支持大文件的克隆。数据集的tfrecord文件可通过tf.data.TFRecordDataset直接加载。每个样本包含八个字段,包括图像文件名、美学评分、失真评分、错位评分、整体评分、失真热图、错位热图以及提示中的错位标记。用户可通过提供的代码示例解析tfrecord文件,并匹配提示中的错位标记。
背景与挑战
背景概述
RichHF-18K数据集是由Youwei Liang等研究人员在2024年CVPR会议上发布的,旨在为文本到图像生成领域提供丰富的用户反馈标签。该数据集包含了17,760个样本,涵盖了美学评分、人工标注的热图(如失真像素区域)以及文本提示中的错位标记。这些标签基于Pick-a-pic v1数据集生成的图像进行标注,为研究人员提供了一个评估和改进文本到图像生成模型的重要资源。RichHF-18K的发布不仅丰富了现有的数据集资源,还为该领域的进一步研究提供了新的视角和方法。
当前挑战
RichHF-18K数据集在构建过程中面临了多个挑战。首先,如何有效地收集和标注高质量的用户反馈是一个关键问题,因为这直接影响到数据集的可靠性和应用价值。其次,数据集中包含的多种类型的标签(如美学评分、失真区域热图等)需要精确的标注和一致性,这增加了数据处理的复杂性。此外,数据集的存储和访问方式(如使用Git LFS)也带来了技术上的挑战,要求用户具备一定的技术背景和资源。最后,如何有效地解析和利用这些复杂的标签数据,以提升文本到图像生成模型的性能,是研究人员需要解决的重要问题。
常用场景
经典使用场景
RichHF-18K数据集在文本到图像生成领域中具有经典应用场景,主要用于评估和提升生成图像的质量。通过提供主观评分(如美学评分)、人类标注的热图(如失真像素区域)以及文本提示中的错位标记,该数据集能够帮助研究人员和开发者优化生成模型,使其更符合人类的审美和感知标准。
解决学术问题
RichHF-18K数据集解决了文本到图像生成领域中常见的学术研究问题,如生成图像的质量评估和优化。通过提供详细的人类反馈标签,该数据集为研究人员提供了一个标准化的评估框架,有助于推动生成模型在美学和感知质量上的改进,从而提升整体生成效果。
衍生相关工作
RichHF-18K数据集的发布催生了一系列相关研究工作,特别是在文本到图像生成模型的评估和优化方面。例如,研究人员利用该数据集开发了新的评估指标和优化算法,进一步提升了生成图像的质量和一致性。此外,该数据集还激发了对生成模型在美学和感知质量上更深入的研究。
以上内容由遇见数据集搜集并总结生成



