Human Annotation Dataset

Name: Human Annotation Dataset
Creator: 清华大学深圳国际研究生院, 浙江大学
Published: 2024-12-10 00:05:31
License: 暂无描述

arXiv2024-12-10 更新2024-12-11 收录

下载链接：

http://arxiv.org/abs/2412.06614v1

下载链接

链接失效反馈

官方服务：

资源简介：

Human Annotation Dataset是由清华大学深圳国际研究生院和浙江大学联合创建的一个标准化图像提示集，用于多视角扩散模型的评估与对齐人类偏好。该数据集通过从DALL·E和Objaverse收集的600个高质量文本提示生成1200个图像提示，并使用四种多视角扩散方法生成10200个多视角资产，最终通过20位专家的配对比较，形成了16000条有效的比较数据。该数据集的创建旨在解决现有3D生成方法在评估中与人类偏好不一致的问题，特别是在图像驱动的3D生成任务中，提供了一个公平和透明的评估环境。

The Human Annotation Dataset is a standardized image prompt set jointly developed by Tsinghua Shenzhen International Graduate School and Zhejiang University, designed for the evaluation of multi-view diffusion models and alignment with human preferences. It generates 1200 image prompts from 600 high-quality text prompts collected from DALL·E and Objaverse, produces 10200 multi-view assets via four multi-view diffusion methods, and ultimately yields 16000 valid comparison data points through pairwise comparative assessments conducted by 20 experts. This dataset is created to resolve the inconsistency between existing 3D generation methods and human preferences during evaluation, and provides a fair and transparent evaluation environment, especially for image-driven 3D generation tasks.

提供机构：

清华大学深圳国际研究生院, 浙江大学

创建时间：

2024-12-10

搜集汇总

数据集介绍

构建方式

Human Annotation Dataset的构建过程始于从DALL·E和Objaverse中收集并筛选出标准化的图像提示集。随后，利用多个多视角扩散模型生成多视角资产，并通过系统的排序流程对这些资产进行专家级的成对比较，最终形成了包含16,000个专家成对比较的人类标注数据集。这一过程确保了数据集的高质量和多样性，为后续的奖励模型训练提供了坚实的基础。

特点

该数据集的核心特点在于其大规模的专家成对比较，涵盖了16,000个有效比较对，能够有效捕捉人类对多视角图像质量的偏好。此外，数据集的构建过程中采用了多样化的图像提示集，确保了生成的多视角资产在几何和纹理上的复杂性和创造性，从而提升了数据集的实用性和广泛适用性。

使用方法

Human Annotation Dataset主要用于训练MVReward模型，该模型能够有效编码人类对多视角图像的偏好。通过该数据集，研究人员可以训练和验证多视角扩散模型的性能，确保其生成的3D内容与人类偏好高度一致。此外，该数据集还可用于开发和优化多视角扩散模型的微调策略，进一步提升模型的生成质量和与人类偏好的对齐度。

背景与挑战

背景概述

近年来，3D内容生成技术取得了显著进展，然而，相应的评估方法却难以跟上这一步伐。自动评估方法往往难以与人类偏好对齐，且文本和图像驱动方法的混合比较常常导致不公平的评估结果。为了解决这些问题，清华大学深圳国际研究生院和浙江大学的研究人员共同提出了一个综合框架，旨在更好地对齐和评估多视角扩散模型与人类偏好。该研究首先从DALL·E和Objaverse中收集并筛选了一个标准化的图像提示集，随后利用多个多视角扩散模型生成多视角资产。通过系统性的排名流程，研究团队获得了一个人类标注数据集，包含16,000个专家级的成对比较，并训练了一个名为MVReward的奖励模型，以有效编码人类偏好。该数据集的构建为多视角扩散模型的公平评估提供了基础，并推动了3D生成领域的进一步发展。

当前挑战

该数据集的构建过程中面临多个挑战。首先，自动评估方法在3D生成任务中难以与人类偏好对齐，现有的自动指标如FID、LPIPS、CLIPScore等在评估图像到3D任务时表现不佳。其次，构建过程中需要确保生成的多视角资产在不同方法间具有一致性，避免因方法差异导致的评估偏差。此外，数据集的标注过程需要确保标注者能够准确捕捉多视角图像的质量，并进行公平的比较。最后，如何有效地将人类偏好编码到奖励模型中，并确保模型在不同视角和模态下的评估一致性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

Human Annotation Dataset 主要用于训练和评估多视角扩散模型与人类偏好的一致性。通过收集和筛选来自 DALL·E 和 Objaverse 的标准化图像提示集，生成多视角资产，并通过系统化的排名流程，获取了包含 16,000 个专家成对比较的人类标注数据集。该数据集为训练 MVReward 模型提供了基础，使得图像驱动的 3D 方法能够在更公平和透明的环境中进行评估。

衍生相关工作

Human Annotation Dataset 的提出催生了一系列相关研究工作。首先，MVReward 模型的训练基于该数据集，成为首个用于多视角扩散模型的通用人类偏好奖励模型。其次，Multi-View Preference Learning (MVP) 策略进一步利用 MVReward 模型，提出了一个可插拔的多视角扩散模型调优策略，显著提升了模型与人类偏好的对齐效果。这些工作不仅推动了 3D 生成技术的发展，也为其他领域的生成模型提供了新的评估和优化思路。

数据集最近研究