RGBT-PEDES
收藏arXiv2025-03-11 更新2025-03-13 收录
下载链接:
http://arxiv.org/abs/2503.07950v1
下载链接
链接失效反馈官方服务:
资源简介:
RGBT-PEDES是一个针对文本-RGBT行人重识别任务的高质量数据集,由不同年龄和性别的1822个身份组成,包含4723对校准的RGB和热成像图像,涵盖白天和夜晚的各种具有挑战性的场景。数据集还包含7987对RGBT行人图像对的详细文本描述。
RGBT-PEDES is a high-quality dataset dedicated to the text-RGBT person re-identification task. It comprises 1822 identities with diverse ages and genders, and contains 4723 aligned RGB and thermal image pairs that cover various challenging scenarios during both daytime and nighttime. Additionally, the dataset includes detailed textual descriptions for 7987 RGBT pedestrian image pairs.
提供机构:
未知
创建时间:
2025-03-11
搜集汇总
数据集介绍

构建方式
RGBT-PEDES数据集的构建方式是通过结合可见光和热成像两种模态,以应对传统文本-图像人物检索任务在光照变化环境下易受影响的局限性。该数据集包含了1,822个身份,4,723对人像的校准RGB和热图像对,以及7,987个细粒度的文本描述。这些描述由23个标注人员提供,基于RGB和热成像图像,详细描述了人物的表观特征。数据集收集了白天和夜晚的各种场景,并覆盖了遮挡、弱对齐和不良光照条件等多种挑战。
特点
RGBT-PEDES数据集的特点在于其创新性地引入了热成像模态,使得文本-图像人物检索任务能够在更复杂的场景下进行,尤其是在光照条件不佳的情况下。数据集的高质量体现在其多样的场景、详细的文本描述和精确的身份标注上。此外,数据集的构建方式考虑到了不同模态间的异质性,通过设计多级全局-局部跨模态对齐网络(MGANet),有效地挖掘了模态特定和模态协作视觉与文本之间的关系,实现了文本-RGBT人物检索。
使用方法
使用RGBT-PEDES数据集的方法包括将RGB和T图像分割成非重叠的块,并使用共享的图像编码器提取每个模态的特征嵌入。对于文本描述,使用Deepseek去除与颜色相关的词汇,生成无色文本描述。然后,对原始文本进行三种类型的文本掩码处理,包括颜色相关属性掩码、随机掩码和颜色无关属性掩码,并使用共享的文本编码器进行编码。最后,对文本和RGBT图像之间的特征进行全局和局部对齐,以实现跨模态对齐。数据集被分为训练集和测试集,分别用于模型训练和性能评估。
背景与挑战
背景概述
RGBT-PEDES数据集是在2025年由Yifei Deng等人创建的,旨在解决传统文本-图像人物检索任务中由于可见光光谱传感器成像限制而容易受到光照变化影响的问题。该数据集整合了热成像和可见光模态的优势,以在具有挑战性的环境中实现鲁棒的人物检索。RGBT-PEDES数据集包含1,822个不同年龄和性别的人物身份,以及4,723对校准的RGB和热图像对,覆盖了白天和晚上的高度多样化场景,并包含了遮挡、弱对齐和不利光照条件等各种挑战。此外,该数据集还包含了7,987个细粒度的文本描述,为所有RGBT人物图像对提供了详细的描述。RGBT-PEDES数据集的创建推动了该领域的研究和发展,为复杂场景下的文本-图像人物检索提供了新的可能性。
当前挑战
RGBT-PEDES数据集面临的主要挑战包括:1)解决领域问题的挑战:该数据集旨在解决传统文本-图像人物检索任务中光照变化对性能的影响,通过整合热成像和可见光模态的优势来实现鲁棒的人物检索。2)构建过程中的挑战:在构建RGBT-PEDES数据集的过程中,研究人员需要克服多种技术挑战,例如:如何有效地融合RGB和热图像以生成高质量的多模态特征;如何设计多级跨模态全局-局部对齐网络(MGANet)以实现文本与多模态视觉表示的精确对齐;如何创建具有挑战性的数据集,以涵盖各种实际场景中的复杂情况,如低光照、遮挡和不良光照条件等。
常用场景
经典使用场景
RGBT-PEDES数据集的经典使用场景是跨模态行人检索,它通过结合可见光和热成像两种模态的信息,实现了在复杂光照环境下对行人的准确检索。该数据集包含了大量的RGB和热成像图像对,以及详细的文本描述,为研究跨模态行人检索提供了宝贵的数据资源。RGBT-PEDES数据集的经典使用场景还包括行人重识别,通过对不同视角、不同光照条件下的人体图像进行检索,实现对行人的身份识别。此外,RGBT-PEDES数据集还可以用于行人属性分析,通过对行人图像的文本描述进行分析,可以提取出行人的属性信息,如性别、年龄、衣着等。
解决学术问题
RGBT-PEDES数据集解决了跨模态行人检索中的几个关键问题。首先,它通过引入热成像模态,解决了传统跨模态行人检索在光照变化大时的检索准确率低的问题。其次,RGBT-PEDES数据集包含了大量的文本描述,为研究文本与图像之间的跨模态关系提供了数据基础。此外,RGBT-PEDES数据集还包含了大量的遮挡、低光照、强光等复杂场景的图像,为研究行人检索在复杂场景下的鲁棒性提供了数据支持。
衍生相关工作
RGBT-PEDES数据集的提出和研究推动了跨模态行人检索领域的发展。基于RGBT-PEDES数据集,研究人员提出了多种跨模态行人检索方法,如基于深度学习的行人检索方法、基于多模态学习的行人检索方法等。这些方法在RGBT-PEDES数据集上取得了较好的性能,为跨模态行人检索领域的研究提供了新的思路和方法。此外,RGBT-PEDES数据集的提出和研究还推动了行人重识别、行人属性分析等领域的发展,为相关研究提供了数据支持。
以上内容由遇见数据集搜集并总结生成



