VIPeR
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/kaiyangzhou/deep-person-reid/blob/master/torchreid/data/datasets/image/viper.py
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为VIPeR,是行人图像对常用的数据集。它包含了两个不同相机视角下,行人视角、姿态和光照条件存在较大差异的图像对。来自相机A的图像主要捕捉的是0至90度视角的行人,而相机B则主要捕捉90至180度视角的行人。该数据集共包含632对图像,对应632位不同的行人,其任务是行人重识别。
The dataset named VIPeR is a widely utilized benchmark dataset for pedestrian re-identification. It contains pedestrian image pairs captured from two distinct camera viewpoints, with substantial variations in pedestrian viewpoints, postures, and illumination conditions. Images from Camera A primarily capture pedestrians at viewpoints ranging from 0° to 90°, while Camera B mainly targets pedestrians with viewpoints between 90° and 180°. This dataset comprises a total of 632 image pairs corresponding to 632 distinct pedestrians, and it is designed for the pedestrian re-identification task.
搜集汇总
数据集介绍

构建方式
在文本到图像生成领域,为研究即时偏好对齐问题,VIPeR数据集应运而生。该数据集的构建过程严谨而系统,首先从文化、艺术、情感及电影四大类别中广泛收集图像素材,其中情感类图片选自大规模视觉情感数据集EmoSet,其余类别则从互联网精心筛选。构建核心在于利用多模态大语言模型对参考图像进行深度分析,自动提取涵盖艺术风格、情感氛围、主题元素及视觉细节等多维度的偏好关键词。随后,基于这些关键词对基础文本提示进行结构化指令设计下的精细化丰富,最终形成包含复杂提示、子提示及背景提示的扩展提示组,为偏好引导的图像生成奠定数据基础。
特点
VIPeR数据集在偏好对齐研究领域展现出鲜明的特色。其首要特征在于偏好覆盖的全面性与细粒度,通过系统性的分类框架,数据集能够捕捉艺术风格、情感共振、主题内涵及视觉元素等多元且细腻的用户偏好,超越了以往方法仅聚焦于特定对象或风格的局限。其次,数据集构建过程高度自动化,摒弃了依赖人工专家标注的传统模式,利用多模态大语言模型的先验知识实现偏好信号的智能理解与提取,显著提升了构建效率与可扩展性。此外,数据集天然支持多轮交互式精炼,能够适应实时演变的用户意图,为研究动态、上下文感知的生成任务提供了宝贵资源。
使用方法
在具体应用层面,VIPeR数据集为训练免费的即时偏好对齐框架提供了关键评估基准。研究者可利用该数据集验证其方法在偏好理解与引导生成两阶段的性能。在偏好理解阶段,通过输入参考图像,测试模型自动提取多维偏好关键词并与用户真实意图对齐的准确性。在偏好引导生成阶段,则将扩展后的提示组输入文本到图像扩散模型,结合全局关键词引导与局部区域感知的交叉注意力调制机制,评估生成图像在全局属性与局部细节上与参考偏好的对齐程度。数据集支持定量指标(如风格损失、情感准确率)与定性用户研究的综合评估,并可进行多轮交互式精炼实验,以探索实时、对话式图像生成的新可能性。
背景与挑战
背景概述
VIPeR数据集作为视觉偏好对齐研究的关键基准,由Salehi等人于2024年提出,旨在解决文本到图像生成领域中用户偏好动态适配的难题。该数据集聚焦于从单张参考图像中提取多维度的视觉偏好信号,涵盖艺术风格、情感氛围、主题元素及视觉细节等类别,为训练免调的即时偏好对齐方法提供了评估基础。其构建依托于专家标注的偏好属性集合,推动了生成模型从静态内容合成向个性化、上下文感知的交互式创作演进,对多模态大模型与扩散模型的融合研究产生了显著影响。
当前挑战
VIPeR数据集所应对的核心领域挑战在于实现文本到图像生成中细粒度、多维度用户偏好的实时对齐,其需克服偏好信号提取的全面性与上下文保持之间的平衡难题。具体而言,构建过程中的挑战包括:依赖人工专家标注偏好属性导致的数据采集效率低下与可扩展性受限;以及静态标注难以捕捉用户偏好的动态演变与细微差异,限制了模型对复杂场景中全局属性与局部元素协同控制的泛化能力。
常用场景
经典使用场景
在文本到图像生成领域,VIPeR数据集作为视觉偏好对齐研究的基准,其经典使用场景聚焦于评估模型如何从单张参考图像中理解并复现用户的多维度视觉偏好。该数据集通过提供专家标注的风格、情感、主题及视觉元素等细粒度偏好信号,为研究者构建了一个可控的实验环境,用以检验模型在无需额外训练的情况下,能否实时生成与参考图像在艺术风格、情绪氛围、主题内容和视觉细节上高度一致的图像。这一场景深刻反映了生成式人工智能向个性化、即时响应方向演进的核心挑战。
实际应用
在实际应用层面,VIPeR数据集所支撑的技术为创意产业和个性化内容生成带来了革新。例如,在数字营销、游戏美术设计、影视概念创作等领域,创作者可通过提供一张心仪的参考图像,系统便能即时生成在色调、氛围、构图乃至细节元素上与之契合的新内容,极大提升了创作效率与个性化程度。该框架支持多轮交互式细化,允许用户实时调整偏好关键词或修改生成内容中的实体,实现了真正意义上的上下文感知与用户意图驱动的图像生成,为构建智能化的创意辅助工具奠定了坚实基础。
衍生相关工作
围绕VIPeR数据集,学术界衍生出一系列探索视觉偏好对齐的经典工作。例如,基于强化学习人类反馈的方法尝试通过偏好数据对微调扩散模型;定制化内容生成研究则专注于主题编码或风格迁移。VIPeR本身的工作引入了基于专家评论的视觉偏好收集与注入机制。而受其启发,后续研究如利用多模态大语言模型先验进行自动偏好理解与提示词增强、通过全局-局部解耦实现训练无关的扩散模型控制等,均显著拓展了该领域的边界。这些工作共同构成了一个从静态对齐到动态即时适应、从粗粒度控制到细粒度引导的完整研究谱系。
以上内容由遇见数据集搜集并总结生成



