HAM-PEDES
收藏github2025-03-06 更新2025-03-15 收录
下载链接:
https://github.com/sssaury/HAM
下载链接
链接失效反馈官方服务:
资源简介:
HAM-PEDES数据集由100万张图像组成,每张图像有2个描述,这些描述是使用经过HAM方法训练的LLaVA1.6模型生成的。该数据集用于训练和评估文本到图像行人重识别模型。
The HAM-PEDES dataset consists of 1 million images, with 2 captions for each image. These captions are generated by the LLaVA 1.6 model fine-tuned with the HAM method. This dataset is designed for training and evaluating text-to-image person re-identification models.
创建时间:
2025-03-03
原始信息汇总
数据集概述
数据集名称
Human Annotators for Modeling (HAM)
数据集描述
该数据集是用于文本到图像行人重识别(Person Re-identification)的模型训练和评估。数据集包含了行人图像以及对应的文本描述,用于训练LLaVA模型,并在此基础上进行行人重识别模型的训练和微调。
数据集组成
- 图像数据:包含行人图像数据,来源于CUHK-PEDES、ICFG-PEDES和SYNTH-PEDES等数据集。
- 文本描述:为行人图像生成文本描述,用于LLaVA模型的训练。
- 行人重识别数据:包含行人重识别模型训练所需的数据,以及基于IRRA代码训练的ReID预训练模型。
使用说明
- 环境配置:使用Python 3.10,安装必要的包。
- LLaVA训练:使用CUHK-PEDES和ICFG-PEDES数据集的指令数据训练LLaVA模型。
- 图像描述生成:使用LLaVA模型为行人图像生成多样化的描述。
- ReID模型训练:基于IRRA代码和本数据集训练ReID模型。
- 模型微调:基于其他方法(如IRRA, RDE)的下游数据集进行模型微调。
数据集下载
引用信息
@article{jiang2025modeling, title={Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification}, author={Jiayu Jiang, Changxing Ding, Wentao Tan, Junhong Wang, Jin Tao, Xiangming Xu}, journal={CVPR}, year={2025}, }
联系方式
Email: 272521211@qq.com
搜集汇总
数据集介绍

构建方式
HAM-PEDES数据集的构建基于大规模图像与文本的配对,采用LLaVA模型进行预训练,以生成行人图像的多样化描述。该数据集的构建涉及从CUHK-PEDES和ICFG-PEDES获取指令数据,使用风格提示进行训练,进而生成包含一百万张图像的描述,每张图像配有两个描述。
特点
本数据集的特点在于其大规模的行人图像和对应的文本描述,提供了丰富的标注数据,有助于文本到图像的重识别任务。其生成的描述具有多样性,能够有效支持模型的泛化能力。此外,数据集包含了预训练的ReID模型,可直接用于下游任务。
使用方法
使用HAM-PEDES数据集首先需要准备相应的环境配置,安装必要的包和本地变换器。之后,可以通过脚本训练LLaVA模型,生成行人图像的描述。数据集的使用包括基于该数据集训练ReID模型,以及在其他下游任务上进行微调。相关模型和预训练权重可通过提供的链接获取。
背景与挑战
背景概述
HAM-PEDES数据集的研究背景根植于文本到图像行人重识别领域,旨在通过模拟数千名人类注释者,实现通用的文本到图像行人重识别。该数据集由Jiayu Jiang等人创建,预计于2025年发表在CVPR会议上。其核心研究问题是如何利用大量人类注释者的数据,提升模型在行人重识别任务上的泛化能力。该数据集的提出,对于推动行人重识别技术的发展,提高其在实际应用中的性能,具有重要的研究价值和广泛的影响力。
当前挑战
在构建HAM-PEDES数据集的过程中,研究者们面临了诸多挑战。首先,如何在保持数据质量的前提下,有效地收集和整合来自数千名人类注释者的数据,是一大挑战。其次,数据集在构建过程中,还需要解决如何确保图像与文本描述的一致性,以及如何处理大规模数据带来的计算和存储问题。此外,在行人重识别领域,模型面临的挑战还包括如何提高识别的准确性和鲁棒性,以及如何处理不同场景和光照条件下的识别问题。
常用场景
经典使用场景
HAM-PEDES数据集在文本到图像行人重识别任务中扮演着重要角色。该数据集通过模拟数千名人类标注者,生成具有多样化风格的图像描述,进而促进模型的泛化能力。经典使用场景包括使用该数据集训练LLaVA模型,通过风格提示进行图像描述,以及生成行人图像的多样化描述。
实际应用
在实际应用中,HAM-PEDES数据集可用于训练行人重识别模型,这些模型在视频监控、人员追踪等安全领域有着广泛的应用。此外,该数据集生成的图像描述还可用于增强图像搜索系统的效果,提升用户体验。
衍生相关工作
基于HAM-PEDES数据集,研究者们已经开展了一系列相关工作,包括训练ReID模型并在此基础上进行微调以适应下游任务。此外,该数据集也促进了诸如IRRA、RDE等其他方法的精细化调整,推动了行人重识别领域的研究进展。
以上内容由遇见数据集搜集并总结生成



