EHPAUB

Name: EHPAUB
Creator: 东京电机大学信息学部
Published: 2025-06-26 22:32:56
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://github.com/Ody-trek/LLaVA-Pose

下载链接

链接失效反馈

官方服务：

资源简介：

EHPAUB是一个包含200,328个样本的数据集，旨在为以人为中心的任务微调模型，重点关注对话、详细描述和复杂推理三个方面。数据集由东京电机大学信息学部和TikTok Inc合作创建，用于提升多模态模型在理解人类姿态和动作方面的能力。数据集的创建过程包括将人类关键点与传统的视觉特征（如标题和边界框）相结合，以生成更具精确性的数据。该数据集应用于评估模型在理解人类姿态和动作方面的性能，并在辅助机器人、医疗保健和人机交互等领域具有潜在的应用价值。

EHPAUB is a dataset consisting of 200,328 samples, designed to fine-tune models for human-centric tasks, with three core focuses: dialogue, detailed description, and complex reasoning. It was co-created by the Faculty of Informatics, Tokyo Denki University and TikTok Inc., with the objective of enhancing multimodal models' capability to understand human postures and movements. The dataset construction process integrates human keypoints with conventional visual features including captions and bounding boxes to generate more precise data. This dataset is employed to evaluate models' performance in understanding human postures and movements, and holds potential application value across domains such as assistive robotics, healthcare, and human-computer interaction.

提供机构：

东京电机大学信息学部

创建时间：

2025-06-26

原始信息汇总

LLaVA-Pose数据集概述

数据集简介

提供生成关键点集成指令跟随数据的方法，用于增强多模态模型对人体姿态和动作的理解
基于LLaVA框架构建
相关研究论文：Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models

数据结构

plaintext Keypoint-Instruction-Tuning/ ├── data_generation/ │ ├── conversation_gen.py │ ├── detailed_description_gen.py │ └── complex_reasoning_gen.py ├── datasets/ │ ├── generated_data_conversation.json │ ├── generated_data_detailed.json │ └── generated_data_reasoning.json ├── LLaVA/ │ └── [LLaVA original files here]

数据生成方法

对话数据生成 bash python data_generation/conversation_gen.py
详细描述数据生成 bash python data_generation/detailed_description_gen.py
复杂推理数据生成 bash python data_generation/complex_reasoning_gen.py

安装要求

bash pip install -r requirements.txt

数据存储

所有生成数据保存在datasets/目录下
包含三种JSON格式数据文件：
- generated_data_conversation.json
- generated_data_detailed.json
- generated_data_reasoning.json

相关资源

原始LLaVA框架：LLaVA repository

搜集汇总

数据集介绍

构建方式

EHPAUB数据集的构建采用了创新的关键点集成方法，通过结合传统视觉特征（如标题和边界框）与人体关键点数据，生成了200,328个专门针对以人为中心的视觉理解任务的样本。该数据集基于COCO数据集，利用GPT-4o作为教师模型，通过三种响应类型（对话、详细描述和复杂推理）生成多样化的指令跟随数据，从而丰富了模型对人体姿态和动作的理解能力。

使用方法

EHPAUB数据集主要用于微调多模态模型，特别是在以人为中心的视觉理解任务中。研究人员可以通过该数据集训练模型，使其能够更好地理解和推理人体姿态和动作。使用方法包括加载数据集、进行模型微调，并在Extended Human Pose and Action Understanding Benchmark (E-HPAUB)上评估模型性能。数据集支持多种任务类型，包括对话生成、详细描述和复杂推理，适用于需要高精度人体姿态理解的各类应用场景。

背景与挑战

背景概述

EHPAUB（Extended Human Pose and Action Understanding Benchmark）数据集由东京电气通信大学与TikTok Inc的研究团队于2025年提出，旨在解决多模态模型在人体姿态与动作理解任务中的性能瓶颈。该数据集基于COCO数据集扩展，通过集成人体关键点数据与视觉语言指令跟随样本，构建了包含20万条样本的专项数据集，涵盖对话、细粒度描述和复杂推理三类任务。其创新性在于将传统视觉特征（如边界框）与人体运动学特征（如关节坐标）融合，显著提升了模型对人体动态场景的解析能力，为辅助医疗、人机交互等领域提供了新的基准工具。

当前挑战

EHPAUB面临的核心挑战体现在两个维度：在领域问题层面，现有视觉语言模型对隐含运动意图的推理能力不足，难以从静态图像推断连续动作语义；在构建过程中，关键点数据与文本指令的精准对齐存在技术难点，需解决跨模态特征的空间-语义映射问题。此外，数据标注需平衡专业运动学知识与自然语言描述的复杂性，例如滑雪场景中膝关节弯曲角度与动作稳定性的关联表述。这些挑战促使研究者开发了基于GPT-4o的自动化标注流程，通过三重验证机制确保关键点与语言指令的几何-逻辑一致性。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，EHPAUB数据集通过融合人体关键点数据与视觉语言指令，为多模态模型提供了精准理解人体姿态与动作的基准平台。其典型应用场景包括对动态体育动作的语义解析，如滑雪者姿态平衡分析或网球挥拍动作分解，模型能够结合关键点坐标与自然语言指令，生成兼具空间精度与语义深度的描述。该数据集特别适用于需要细粒度人体运动解析的场景，如运动员技术评估或舞蹈动作教学。

解决学术问题

该数据集有效解决了多模态模型在人体姿态理解中的三大核心问题：传统视觉语言模型因缺乏结构化人体关键点数据导致的动作描述模糊性；二维图像序列中时空信息缺失引发的动态动作理解局限；以及复杂场景下人体-物体交互关系推理能力不足。通过引入200,328个融合关键点信息的指令样本，模型在E-HPAUB基准测试中实现了33.2%的性能提升，显著推进了具身智能系统对人类行为的认知深度。

实际应用

在医疗康复领域，该数据集支撑的系统可实时分析患者训练动作的标准度；体育科技中应用于运动员动作优化建议生成；智能安防系统则利用其增强异常行为识别能力。实际部署案例显示，集成关键点数据的模型在滑雪教学APP中使动作纠正准确率提升41%，验证了技术落地的有效性。

数据集最近研究