MMHU

Name: MMHU
Creator: 德克萨斯A&M大学, 布朗大学, 约翰霍普金斯大学, 德州大学奥斯汀分校
Published: 2025-07-17 01:59:30
License: 暂无描述

arXiv2025-07-17 更新2025-07-18 收录

下载链接：

https://MMHU-Benchmark.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

MMHU是一个大规模的多模态数据集，旨在理解人类行为，特别是自动驾驶场景下的行为。数据集由德克萨斯A&M大学、布朗大学、约翰霍普金斯大学和德州大学奥斯汀分校的研究团队创建，包含57,000个人类行为实例，以及来自Waymo、YouTube和其他来源的1.73M帧视频。数据集提供了丰富的人类运动轨迹、文本描述和行为标签等信息，旨在解决自动驾驶中的人类行为理解问题。

MMHU is a large-scale multimodal dataset designed for human behavior understanding, particularly in autonomous driving scenarios. It was developed by research teams from Texas A&M University, Brown University, Johns Hopkins University, and The University of Texas at Austin, containing 57,000 human behavior instances and 1.73 million video frames sourced from Waymo, YouTube, and other sources. The dataset provides rich information including human motion trajectories, textual descriptions, behavior labels and other relevant data, with the goal of addressing the challenge of human behavior understanding in autonomous driving systems.

提供机构：

德克萨斯A&M大学, 布朗大学, 约翰霍普金斯大学, 德州大学奥斯汀分校

创建时间：

2025-07-17

原始信息汇总

MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding

数据集概述

名称: MMHU
规模: 57k human instances
数据类型: 多模态（图像、运动序列、文本描述）
场景多样性: 城市、学校、公园、小巷等
主要贡献机构:
- Texas A&M University
- Brown University
- Johns Hopkins University
- UT Austin

数据标注内容

行为标签:
- Using an Umbrella
- Walking a pet
- Scooter
- Skateboard
- Talking, Crossing
- Stroller, Crossing
- Bike
- Carrying Items
- Using Phone
- Motorcycle
文本描述: 每个行为样本包含详细的人类运动描述
其他标注: 运动轨迹、驾驶安全相关行为识别

数据来源

Waymo dataset
YouTube videos
自采集或付费驾驶视频

下游任务支持

运动预测 (Motion Prediction)
运动生成 (Motion Generation)
行为视觉问答 (Behavior VQA)
意图预测 (Intention Prediction)

学术引用

bibtex @misc{li2025mmhumassivescalemultimodalbenchmark, title={MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding}, author={Renjie Li and Ruijie Ye and Mingyang Wu and Hao Frank Yang and Zhiwen Fan and Hezhen Hu and Zhengzhong Tu}, year={2025}, eprint={2507.12463}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.12463}, }

资源链接

arXiv论文: https://arxiv.org/abs/2507.12463

搜集汇总

数据集介绍

构建方式

MMHU数据集通过多源数据整合与半自动化标注流程构建而成，其数据来源于Waymo自动驾驶数据集、YouTube公开视频及自采集驾驶录像，涵盖1.73百万帧视频与5.7万个人类行为实例。采用人机协同标注策略，首先通过目标检测筛选含人类行为的视频片段，继而利用SMPL模型重建3D运动序列，并通过视觉语言模型生成多层次文本描述（包括关节级低层描述和语义级高层描述）。关键行为标签通过微调后的VLM模型结合人工校验完成标注，确保了13类驾驶安全相关行为（如横穿马路、使用手机等）的标注准确性。

特点

MMHU的核心特点在于其多模态标注体系与驾驶场景针对性：1）三维运动参数与轨迹数据通过SMPL模型精确重建，支持运动预测与生成任务；2）分层文本描述系统桥接了低层运动参数与高层语义理解，包含每帧关节级描述和聚合生成的语义级行为描述；3）独创的13类关键行为标签体系聚焦驾驶安全场景，如使用轮椅、骑行滑板车等长尾行为。数据覆盖城市街道、公园等多样化场景，人类行为时长分布1-12秒，平均3秒，平衡了现实场景的复杂性与算法训练需求。

使用方法

该数据集支持三大类任务：1）运动预测任务可利用历史帧SMPL参数预测未来运动序列，评估指标包括MPJPE和ACCL；2）文本到运动生成任务以高层描述为输入生成对应动作，通过FID和多样性指标衡量生成质量；3）行为视觉问答任务基于关键行为标签构建闭环问题，评估VLM对驾驶场景人类行为的理解能力。使用建议分为三级：直接采用预标注数据、基于MMHU-H子集微调模型，或在MMHU-T测试集上验证算法性能。数据已按47:9.5:0.84万实例划分训练、验证、测试集，支持端到端评估与跨数据集迁移学习。

背景与挑战

背景概述

MMHU（大规模多模态人类行为理解基准）由德克萨斯农工大学、布朗大学、约翰霍普金斯大学和德克萨斯大学奥斯汀分校的研究团队于2025年提出，旨在解决自动驾驶场景中人类行为理解的综合性评估问题。该数据集包含57,000个人类实例，涵盖城市、学校、公园和小巷等多种场景，提供了丰富的注释，包括运动轨迹、文本描述以及与驾驶安全相关的关键行为标签。MMHU的推出填补了现有数据集在人类行为全面理解方面的空白，推动了自动驾驶系统中人机交互的安全性和可靠性研究。

当前挑战

MMHU面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，数据集需解决复杂场景下人类行为的多样性和动态性，如行人过马路意图识别、手持物品行为分类等细粒度任务。构建过程中，研究者需克服多源数据（Waymo、YouTube及自采数据）的异构性，开发人机协同标注流程以实现SMPL运动参数与语义描述的精准对齐，并处理大规模视频数据中因遮挡导致的运动序列缺失问题。此外，如何通过视觉语言模型有效识别13类关键行为（如使用手机、骑自行车等）也是核心挑战之一。

常用场景

经典使用场景

MMHU数据集在自动驾驶领域中被广泛用于人类行为理解的研究。其丰富的标注信息，包括3D运动轨迹、文本描述和关键行为标签，使其成为评估和开发人类行为预测、意图识别和轨迹生成算法的理想基准。研究人员利用该数据集的多模态特性，能够全面分析行人在复杂交通环境中的行为模式，从而提升自动驾驶系统的安全性和交互能力。

实际应用

在实际应用中，MMHU数据集为自动驾驶系统的开发提供了重要支持。汽车制造商和研究机构利用该数据集训练视觉语言模型，使其能够准确识别行人意图，如是否横穿马路或使用手机等行为。同时，数据集中的运动轨迹信息可用于优化车辆路径规划算法，避免潜在碰撞风险。此外，该数据集还被用于开发车载问答系统，提升车辆与行人之间的交互能力。

衍生相关工作

MMHU数据集催生了一系列相关研究工作。在运动预测方面，PhysMoP等算法通过该数据集提升了预测精度；在行为识别领域，基于视觉语言模型的方法如Qwen2.5-VL通过微调显著提高了问答准确率。此外，数据集还促进了MotionDiffuse等运动生成模型的改进，使其能够生成更符合真实驾驶场景的人类动作。这些衍生工作共同推动了自动驾驶领域人类行为理解技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集