MMPD

Name: MMPD
Creator: 清华大学、商汤科技研究与Tetras.AI、香港大学、上海人工智能实验室
Published: 2024-07-14 17:16:49
License: 暂无描述

arXiv2024-07-14 更新2024-07-17 收录

下载链接：

https://github.com/BubblyYi/MMPedestron

下载链接

链接失效反馈

官方服务：

资源简介：

MMPD数据集是由清华大学、商汤科技研究与Tetras.AI、香港大学和上海人工智能实验室共同创建的大规模多模态行人检测基准。该数据集涵盖了多种传感器模态，包括RGB、红外、深度、激光雷达和事件数据，以及多种模态组合。数据集的创建过程包括整合现有公共数据集和收集新的EventPed数据集，旨在解决复杂场景下行人检测的问题。MMPD数据集的应用领域广泛，包括自动驾驶、机器人和视频监控等，旨在通过多模态数据提高行人检测的准确性和鲁棒性。

The MMPD dataset is a large-scale multimodal pedestrian detection benchmark jointly developed by Tsinghua University, SenseTime Research, Tetras.AI, The University of Hong Kong, and the Shanghai AI Laboratory. It supports multiple sensor modalities including RGB, infrared, depth, LiDAR, and event data, alongside diverse modality combinations. The development of the MMPD dataset entails integrating existing public datasets and curating the novel EventPed dataset, aiming to address the core challenges of pedestrian detection in complex real-world scenarios. The dataset has broad application prospects in fields such as autonomous driving, robotics, and video surveillance, and is designed to improve the accuracy and robustness of pedestrian detection via multimodal data.

提供机构：

清华大学、商汤科技研究与Tetras.AI、香港大学、上海人工智能实验室

创建时间：

2024-07-14

原始信息汇总

MMPedestron 数据集概述

数据集配置和模型

区域提议性能

预训练阶段

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

CrowdHuman

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

COCO-Person

方法与配置	主干网络	下载链接
MMPedestron finetune	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

FLIR

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

PEDRo

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)
MMPedestron(10% train data)	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

LLVIP 数据集

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

InOutDoor 数据集

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

STCrowd 数据集

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

EventPed 数据集

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

融合实验

LLVIP

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

InOutDoor

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

STCrowd

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

EventPed

方法与配置	主干网络	下载链接
MMPedestron	UNIXViT	Google Drive, Baidu Yun (Code: mmpd)

数据准备

请从以下链接获取数据集：MMPD-Dataset

训练与测试

训练

使用 Slurm 管理训练任务：

shell sh tools/slurm_train.sh ${PARTITION} ${JOB_NAME} ${CONFIG_FILE} ${WORK_DIR} ${GPUS}

测试

使用 Slurm 管理测试任务：

shell sh tools/slurm_test.sh ${PARTITION} ${JOB_NAME} ${CONFIG_FILE} ${CHECKPOINT} ${GPUS}

许可证

代码和数据可自由用于非商业用途，并可在这些条件下重新分发。对于商业查询，请联系 Mr. Sheng Jin (jinsheng13[at]foxmail[dot]com)。我们将向您发送详细协议。

引用

如果您发现我们的论文和代码对您的研究有用，请考虑给予星标和引用：

bibtex @inproceedings{zhang2024when, title={When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset}, author={Zhang, Yi and Zeng, Wang and Jin, Sheng and Qian, Chen and Luo, Ping and Liu, Wentao}, booktitle={European Conference on Computer Vision (ECCV)}, year={2024}, month={September} }

搜集汇总

数据集介绍

构建方式

MMPD数据集的构建基于现有的公开数据集和名为EventPed的新收集数据集，涵盖了多种传感器模态，包括RGB、IR、Depth、LiDAR和Event数据。通过整合这些数据集，MMPD数据集不仅包含了单一模态的数据，还提供了多种模态组合的数据，如RGB+IR、RGB+Depth、RGB+LiDAR和RGB+Event。此外，MMPD数据集还涵盖了多种应用场景，包括监控、自动驾驶、机器人、户外和室内环境，从而为开发和评估多模态行人检测模型提供了全面的基础。

特点

MMPD数据集的主要特点在于其多模态和多场景的多样性。首先，数据集涵盖了五种不同的传感器模态，每种模态都提供了独特的信息，有助于在复杂环境中进行行人检测。其次，数据集包含了多种模态组合，这使得研究人员可以探索不同模态之间的互补性和协同效应。最后，MMPD数据集的场景多样性确保了模型在不同应用场景中的泛化能力，从而提高了模型的实用性和鲁棒性。

使用方法

MMPD数据集的使用方法主要包括数据预处理、模型训练和性能评估。首先，用户需要对数据进行预处理，包括数据清洗、标注对齐和模态融合。其次，用户可以选择合适的深度学习模型进行训练，利用MMPD数据集的多模态和多场景特性来提升模型的检测性能。最后，通过在MMPD数据集上进行性能评估，用户可以验证模型的有效性和泛化能力，并根据评估结果进行模型的优化和改进。

背景与挑战

背景概述

近年来，随着不同传感器模态（如RGB、IR、深度、LiDAR和事件）在行人检测中的应用，多模态学习逐渐受到研究者的关注。然而，设计一个能够有效处理多种传感器模态的统一通用模型仍然是一个挑战。MMPD数据集由清华大学、商汤科技和香港大学等机构的研究人员于2024年创建，旨在解决多模态行人检测中的统一模型设计问题。该数据集整合了现有的公开数据集和新的EventPed数据集，涵盖了RGB、IR、深度、LiDAR和事件数据等多种传感器模态，为多模态行人检测提供了首个大规模基准。MMPD数据集的构建不仅推动了多模态行人检测技术的发展，还为相关领域的研究提供了丰富的数据资源和评估平台。

当前挑战

MMPD数据集在构建和应用过程中面临多重挑战。首先，现有的行人检测基准主要集中在单一或成对的传感器模态上，缺乏一个能够全面评估多种方法在不同应用场景下的综合基准。其次，以往的多模态融合方法通常针对特定的模态对（如RGB-D或RGB-T）进行设计，难以扩展到其他模态组合。此外，这些方法假设所有模态都可用，未考虑某些模态缺失的情况，加剧了问题的复杂性。最后，不同模态特定的行人数据集来自不同的领域，设计用于特定的应用场景，导致在某一特定模态上训练的行人检测器在不同领域缺乏泛化能力。这些挑战要求研究者在设计多模态行人检测模型时，不仅要考虑模态间的融合，还需增强模型在不同场景和模态组合下的适应性和鲁棒性。

常用场景

经典使用场景

MMPD数据集在多模态行人检测领域中具有经典应用场景，主要用于训练和评估能够处理多种传感器模态（如RGB、IR、Depth、LiDAR和Event）的通用模型。通过结合不同模态的数据，MMPD数据集支持开发能够适应复杂环境和动态条件下的行人检测算法，从而提升检测精度和鲁棒性。

衍生相关工作

MMPD数据集的引入催生了一系列相关研究工作，包括多模态特征融合方法的改进、通用行人检测模型的优化以及跨模态数据集的扩展。例如，基于MMPD数据集的研究已经提出了多种多模态融合策略，如早期融合、中期融合和晚期融合，以及针对特定模态组合的优化模型。这些工作不仅提升了行人检测的性能，还为多模态感知技术的发展提供了新的思路和方法。

数据集最近研究