MALL-VLM
收藏github2026-03-08 更新2026-03-12 收录
下载链接:
https://github.com/harshm2601/mall-vlm-devkit
下载链接
链接失效反馈官方服务:
资源简介:
MALL-VLM是一个大规模的人员重新识别和多目标跟踪数据集,采集自一个真实购物中心的22个监控摄像头,覆盖3个区域。它包含9,209个独特身份和125,229个标注的边界框,记录了3天的数据,展示了遮挡、视角变化、光照变化和长尾身份分布等现实挑战。
MALL-VLM is a large-scale person re-identification and multi-object tracking dataset. It was collected from 22 surveillance cameras in a real-world shopping mall, covering 3 distinct areas. The dataset includes 9,209 unique identities and 125,229 annotated bounding boxes, with data recorded over 3 days, and it exhibits realistic challenges including occlusion, viewpoint variation, illumination changes, and long-tailed identity distribution.
创建时间:
2026-03-08
原始信息汇总
MALL-VLM 数据集概述
数据集基本信息
- 数据集名称:MALL-VLM
- 核心用途:一个用于行人重识别和多目标跟踪的多摄像头基准数据集
- 采集环境:真实购物商场内的监控场景
- 许可证:CC-BY-4.0
数据规模与构成
- 唯一身份数量:9,209
- 标注边界框数量:125,229
- 视频帧数量:27,393
- 摄像头数量:22
- 商场区域数量:3 (G1, G2, G3)
- 录制天数:3
- 分辨率:最高达 2560 x 1440
- 跨摄像头身份数量:1,450 (占总身份数的15.7%)
- 单个身份出现的最多摄像头数:14
- 干扰项数量:724
- 标注类型:边界框 + 身份标签
- 数据格式:FiftyOne / 自定义 JSON
关键特性
- 真实世界监控场景:采集自运营中的购物商场,非摆拍数据
- 长尾分布:反映自然的访客模式,少数身份频繁出现,多数身份短暂出现
- 跨摄像头跟踪:1,450个身份在2个或更多摄像头中被观测到,适用于行人重识别研究
- 尺度多样性:边界框尺寸范围从约50像素(远景)到约700像素(近景)
- 多任务支持:支持行人重识别、多目标跟踪以及基于视觉语言模型的行人搜索
数据划分
数据集采用多样性分层划分方法:身份按其出现的摄像头数量分组,然后在每组内按60/20/20的比例随机分配到训练集、验证集和测试集。这确保了单摄像头和跨摄像头身份在所有划分中都有平衡的代表性。
划分详情
| 划分 | 帧数 | 检测数 | 身份数 | 大小 |
|---|---|---|---|---|
| 训练集 | 24,352 | 76,471 | 5,526 | 20.3 GB |
| 验证集 | 14,813 | 25,832 | 1,840 | 12.2 GB |
| 测试集 | 14,389 | 22,926 | 1,843 | 11.7 GB |
| 总计 | — | 125,229 | 9,209 | 44.2 GB |
零身份泄漏:每个行人身份仅出现在一个划分中。
加载模式
帧中心模式(默认)
每个样本是一个完整的摄像头帧,所有行人检测以边界框形式叠加。适用于多目标跟踪、检测评估和数据集探索。
裁剪中心模式
每个样本是一个单独的行人裁剪图像,带有身份分类标签。专为行人重识别模型的训练和评估设计。
下载方式
通过 FiftyOne(推荐)
使用 fiftyone.zoo.load_zoo_dataset 函数并指定数据集地址 https://github.com/AdonaiVera/mall-vlm-devkit 和划分(如 "test"、"train"、"validation" 或 "full")。
直接下载链接
- 训练集:https://storage.googleapis.com/tecla/mall-vlm-train.zip (20.3 GB)
- 验证集:https://storage.googleapis.com/tecla/mall-vlm-validation.zip (12.2 GB)
- 测试集:https://storage.googleapis.com/tecla/mall-vlm-test.zip (11.7 GB)
每个ZIP文件包含:
frames/:完整的摄像头帧图像 (JPG格式)crops/:单独的行人裁剪图像 (JPG格式)annotations.json:帧元数据和检测标注
部分下载支持
支持通过 global_ids、cameras、zones、max_samples 等参数进行细粒度过滤,仅加载所需数据。
搜集汇总
数据集介绍
构建方式
在计算机视觉领域,行人重识别与多目标跟踪研究亟需能够反映真实复杂场景的大规模基准数据。MALL-VLM数据集的构建正是为了应对这一需求,它通过在真实运营的购物中心内,部署22台监控摄像头,跨越三个不同区域,连续三天采集监控视频。数据采集过程完全非干预,捕捉了自然光线下顾客的真实活动。随后,研究团队对视频帧进行了精细的人工标注,共计标注了125,229个边界框,并对应到9,209个独立的行人身份,确保了身份标注在跨摄像头场景下的一致性。这种基于真实监控环境的构建方式,为算法模型提供了极具挑战性的测试平台。
特点
MALL-VLM数据集以其高度的真实性与复杂性著称。其核心特征在于完全源自真实世界的购物中心监控场景,包含了遮挡、视角变化、光照差异等自然挑战。数据集呈现出典型的长尾身份分布,少数身份频繁出现,而大量身份仅为短暂出现,这精准反映了公共场所人流模式的自然规律。尤为关键的是,数据集中有1,450个身份出现在两个或更多摄像头中,为跨摄像头行人重识别研究提供了宝贵的关联数据。此外,数据集支持帧中心与裁剪中心两种加载模式,并提供了详尽的元数据,使其能够同时服务于行人重识别、多目标跟踪以及基于视觉语言模型的行人搜索等多任务研究。
使用方法
为便于研究人员高效利用,MALL-VLM数据集深度集成于FiftyOne数据平台。用户通过简单的Python代码即可一键加载数据集,支持按训练集、验证集、测试集或完整数据集进行加载。数据集提供了两种互补的加载视角:默认的帧中心模式将每个摄像头帧及其所有检测框作为一个样本,适用于多目标跟踪与检测任务;裁剪中心模式则将每个行人裁剪图作为独立样本,并附带身份标签,专为行人重识别模型的训练与评估设计。研究人员还可以根据具体需求,通过参数灵活地按特定身份、摄像头或区域进行部分数据下载,极大提升了数据使用的针对性与效率。
背景与挑战
背景概述
在计算机视觉领域,行人重识别与多目标追踪是智能视频监控系统的核心技术,其研究进展高度依赖于大规模、高质量的真实世界数据集。MALL-VLM数据集应运而生,由研究团队于近期构建并开源,旨在为学术界与工业界提供一个在真实商场环境下采集的多摄像头基准。该数据集覆盖了三个不同区域,通过22个监控摄像头采集了超过12.5万个标注边界框,涉及9209个独立身份,其核心研究问题聚焦于解决复杂场景下的跨摄像头行人匹配与持续追踪,对推动鲁棒性视觉模型的发展具有显著影响力。
当前挑战
MALL-VLM数据集所针对的行人重识别与多目标追踪任务,面临着现实场景中诸多固有挑战:严重的遮挡现象、显著的外观视角变化、动态光照条件干扰以及身份的长尾分布特性,这些因素共同加剧了模型准确识别与稳定追踪的难度。在数据集构建过程中,研究团队同样需应对一系列工程挑战,包括在多摄像头网络中确保时间同步与空间校准,在非受控环境下进行大规模身份标注与边界框精修,以及设计合理的多样性分层划分策略以防止身份泄漏,从而保证数据集的严谨性与可用性。
常用场景
经典使用场景
在计算机视觉领域,尤其是在智能监控与行为分析的研究中,MALL-VLM数据集为行人重识别和多目标跟踪任务提供了极具挑战性的真实世界场景。该数据集通过22个监控摄像头在购物中心的三个区域采集,涵盖了9209个独特身份和125229个标注边界框,其经典使用场景聚焦于跨摄像头行人身份匹配与连续轨迹追踪。研究人员利用其丰富的遮挡、视角变化、光照差异以及长尾分布等复杂条件,能够有效评估和提升模型在非受控环境下的鲁棒性与泛化能力。
解决学术问题
MALL-VLM数据集主要解决了行人重识别与多目标跟踪领域中的若干关键学术问题。它通过提供大规模、多摄像头、真实场景的标注数据,帮助研究者应对身份匹配中的视角变化、遮挡干扰以及光照不一致等挑战。该数据集的长尾分布特性进一步模拟了现实世界中频繁访客与临时访客的自然模式,为研究数据不平衡问题提供了实证基础。其跨摄像头身份标注支持了跨域重识别算法的开发,推动了模型在复杂监控环境下的实用化进程。
衍生相关工作
围绕MALL-VLM数据集,已衍生出一系列经典的学术研究工作。这些工作主要集中在利用其多摄像头与长尾分布特性,开发新颖的行人重识别网络架构、鲁棒的多目标跟踪算法以及基于视觉语言模型的行人搜索技术。部分研究专注于解决数据集中存在的遮挡与尺度多样性问题,提出了改进的特征提取与匹配策略。此外,该数据集也常被用作基准测试平台,用于公平比较不同模型在真实复杂场景下的性能,推动了整个领域向更实用、更稳健的方向发展。
以上内容由遇见数据集搜集并总结生成



