LaST

Name: LaST
Creator: 鹏城实验室和北京大学
Published: 2021-11-27 20:15:07
License: 暂无描述

arXiv2021-11-27 更新2024-06-21 收录

下载链接：

https://github.com/shuxjweb/last.git

下载链接

链接失效反馈

官方服务：

资源简介：

LaST数据集是由鹏城实验室和北京大学联合创建的大规模时空人物重识别基准，包含10,862个身份和228,156张图像。该数据集通过分析2000多部电影中的场景构建，涵盖了从亚洲到欧洲的多个国家和地区，以及从春季到冬季的不同季节。数据集的创建过程涉及使用半自动标注工具PLabel进行精细标注，确保了数据的高质量和多样性。LaST数据集的应用领域主要集中在人物重识别技术，旨在解决实际场景中由于时空变化导致的人物识别难题，如不同城市、不同时间段和不同服装的人物识别。

The LaST dataset is a large-scale spatiotemporal person re-identification benchmark jointly created by Peng Cheng Laboratory and Peking University, which includes 10,862 identities and 228,156 images. Constructed by analyzing scenes from over 2,000 movies, this dataset covers multiple countries and regions spanning from Asia to Europe, as well as various seasons ranging from spring to winter. The dataset development process involves elaborate annotation using the semi-automatic annotation tool PLabel, ensuring the high quality and diversity of the data. The main application field of the LaST dataset is person re-identification technology, which aims to solve the challenges of person recognition in real-world scenarios caused by spatiotemporal variations, such as person recognition across different cities, time periods and different clothing styles.

提供机构：

鹏城实验室和北京大学

创建时间：

2021-06-01

搜集汇总

数据集介绍

构建方式

在行人重识别领域，传统数据集常受限于有限的时空范围，难以模拟真实场景的复杂性。为突破这一局限，LaST数据集创新性地从超过两千部电影中提取行人图像，构建了一个大规模时空跨度数据集。其构建过程采用半自动标注工具PLabel，首先从电影中提取帧并降低冗余，随后通过行人检测算法生成边界框，并由八名标注员进行身份标注与边界框调整，最终筛选出图像数量不少于五张的行人身份，确保了数据的质量与多样性。

特点

LaST数据集以其前所未有的时空跨度与多样性著称，包含10,862个身份和超过228,000张图像。其核心特点在于模拟了真实世界中的复杂挑战：行人活动范围跨越多个城市乃至国家，时间覆盖从白昼到夜晚、季节从春季到冬季的长期变化。数据集中76%的行人存在换装情况，最大换装次数达24次，同时涵盖了室内外多种场景、不同光照与天气条件，以及广泛的年龄分布。这些特性共同构成了一个极具挑战性的行人重识别基准。

使用方法

LaST数据集为评估算法在复杂时空条件下的性能提供了标准基准。研究者可按照其划分的训练集、验证集和测试集进行模型训练与评估，使用累积匹配特性曲线和平均精度均值作为核心评估指标。该数据集特别适用于研究长期、跨地域且包含换装场景的行人重识别任务。此外，其提供的衣物标签支持针对短期场景的衣物预训练策略，而基于LaST预训练的模型在传统短期数据集和换装数据集上均展现出良好的泛化能力，为领域自适应研究提供了有力支持。

背景与挑战

背景概述

行人重识别作为计算机视觉领域的关键任务，旨在跨非重叠摄像头追踪特定个体。传统数据集如Market1501和DukeMTMC虽推动了短期重识别研究，但其有限的时空范围难以模拟现实场景中行人活动跨越广阔地域与长期时间的复杂性。为弥合这一差距，北京大学、鹏城实验室与华为云AI团队于2021年共同构建了LaST数据集，该数据集从超过2000部电影中提取，涵盖10,862个身份和228,156张图像，首次在行人重识别领域实现了大规模时空跨度的密集标注。LaST通过涵盖多城市、多季节、昼夜变化及衣物更换等真实场景要素，显著提升了数据多样性，为研究长期跨时空行人重识别提供了关键基准。

当前挑战

LaST数据集致力于解决长期跨时空行人重识别这一核心领域问题，其挑战主要体现在两方面：其一，在任务层面，行人外观因跨越不同地域、光照条件、季节及频繁衣物更换而产生巨大视觉差异，导致传统依赖衣物特征的模型性能显著下降，现有方法在LaST上的平均精度均值普遍低于30%；其二，在构建过程中，从电影素材构建真实监控风格数据面临严峻挑战，需从海量视频帧中筛选出符合监控视角的全身图像，并克服电影后期调色带来的色彩失真问题，同时通过半自动标注工具PLabel结合人工校验，确保身份与衣物标签的准确性，这一过程需平衡数据规模、多样性与标注成本。

常用场景

经典使用场景

在行人重识别领域，LaST数据集因其大规模时空跨度特性，常被用于评估算法在复杂现实场景下的鲁棒性。该数据集通过从电影中提取的10,862个身份和超过228,000张图像，模拟了跨城市、跨季节及昼夜变化的行人活动，为研究者提供了检验模型在光照、服饰、背景多样性等挑战下的经典测试平台。

衍生相关工作

基于LaST数据集，研究者们衍生出多项经典工作，主要集中在优化行人重识别算法以应对时空挑战。例如，原论文提出的基于平均精度直接优化的基线方法，启发了后续针对服饰变化和长期重识别的特征学习策略。此外，LaST还被用于预训练模型，以提升在短时数据集和服饰变化数据集上的泛化性能，推动了如跨域适应、多粒度特征融合等相关研究方向的发展。

数据集最近研究