HAM-PEDES

github2025-03-06 更新2025-03-15 收录

下载链接：

https://github.com/sssaury/HAM

下载链接

链接失效反馈

官方服务：

资源简介：

HAM-PEDES数据集由100万张图像组成，每张图像有2个描述，这些描述是使用经过HAM方法训练的LLaVA1.6模型生成的。该数据集用于训练和评估文本到图像行人重识别模型。

The HAM-PEDES dataset consists of 1 million images, with 2 captions for each image. These captions are generated by the LLaVA 1.6 model fine-tuned with the HAM method. This dataset is designed for training and evaluating text-to-image person re-identification models.

创建时间：

2025-03-03

原始信息汇总

数据集概述

数据集名称

Human Annotators for Modeling (HAM)

数据集描述

该数据集是用于文本到图像行人重识别（Person Re-identification）的模型训练和评估。数据集包含了行人图像以及对应的文本描述，用于训练LLaVA模型，并在此基础上进行行人重识别模型的训练和微调。

数据集组成

图像数据：包含行人图像数据，来源于CUHK-PEDES、ICFG-PEDES和SYNTH-PEDES等数据集。
文本描述：为行人图像生成文本描述，用于LLaVA模型的训练。
行人重识别数据：包含行人重识别模型训练所需的数据，以及基于IRRA代码训练的ReID预训练模型。

使用说明

环境配置：使用Python 3.10，安装必要的包。
LLaVA训练：使用CUHK-PEDES和ICFG-PEDES数据集的指令数据训练LLaVA模型。
图像描述生成：使用LLaVA模型为行人图像生成多样化的描述。
ReID模型训练：基于IRRA代码和本数据集训练ReID模型。
模型微调：基于其他方法（如IRRA, RDE）的下游数据集进行模型微调。

数据集下载

引用信息

@article{jiang2025modeling, title={Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification}, author={Jiayu Jiang, Changxing Ding, Wentao Tan, Junhong Wang, Jin Tao, Xiangming Xu}, journal={CVPR}, year={2025}, }

联系方式

Email: 272521211@qq.com

搜集汇总

数据集介绍

构建方式

HAM-PEDES数据集的构建基于大规模图像与文本的配对，采用LLaVA模型进行预训练，以生成行人图像的多样化描述。该数据集的构建涉及从CUHK-PEDES和ICFG-PEDES获取指令数据，使用风格提示进行训练，进而生成包含一百万张图像的描述，每张图像配有两个描述。

特点

本数据集的特点在于其大规模的行人图像和对应的文本描述，提供了丰富的标注数据，有助于文本到图像的重识别任务。其生成的描述具有多样性，能够有效支持模型的泛化能力。此外，数据集包含了预训练的ReID模型，可直接用于下游任务。

使用方法

使用HAM-PEDES数据集首先需要准备相应的环境配置，安装必要的包和本地变换器。之后，可以通过脚本训练LLaVA模型，生成行人图像的描述。数据集的使用包括基于该数据集训练ReID模型，以及在其他下游任务上进行微调。相关模型和预训练权重可通过提供的链接获取。

背景与挑战

背景概述

HAM-PEDES数据集的研究背景根植于文本到图像行人重识别领域，旨在通过模拟数千名人类注释者，实现通用的文本到图像行人重识别。该数据集由Jiayu Jiang等人创建，预计于2025年发表在CVPR会议上。其核心研究问题是如何利用大量人类注释者的数据，提升模型在行人重识别任务上的泛化能力。该数据集的提出，对于推动行人重识别技术的发展，提高其在实际应用中的性能，具有重要的研究价值和广泛的影响力。

当前挑战

在构建HAM-PEDES数据集的过程中，研究者们面临了诸多挑战。首先，如何在保持数据质量的前提下，有效地收集和整合来自数千名人类注释者的数据，是一大挑战。其次，数据集在构建过程中，还需要解决如何确保图像与文本描述的一致性，以及如何处理大规模数据带来的计算和存储问题。此外，在行人重识别领域，模型面临的挑战还包括如何提高识别的准确性和鲁棒性，以及如何处理不同场景和光照条件下的识别问题。

常用场景

经典使用场景

HAM-PEDES数据集在文本到图像行人重识别任务中扮演着重要角色。该数据集通过模拟数千名人类标注者，生成具有多样化风格的图像描述，进而促进模型的泛化能力。经典使用场景包括使用该数据集训练LLaVA模型，通过风格提示进行图像描述，以及生成行人图像的多样化描述。

实际应用

在实际应用中，HAM-PEDES数据集可用于训练行人重识别模型，这些模型在视频监控、人员追踪等安全领域有着广泛的应用。此外，该数据集生成的图像描述还可用于增强图像搜索系统的效果，提升用户体验。

衍生相关工作

基于HAM-PEDES数据集，研究者们已经开展了一系列相关工作，包括训练ReID模型并在此基础上进行微调以适应下游任务。此外，该数据集也促进了诸如IRRA、RDE等其他方法的精细化调整，推动了行人重识别领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集