IMPACT
收藏github2026-04-09 更新2026-04-22 收录
下载链接:
https://github.com/Kratos-Wen/IMPACT
下载链接
链接失效反馈官方服务:
资源简介:
IMPACT是一个用于工业装配中多粒度人类程序性动作理解的数据集,包含多视角RGB视频、深度数据、自我中心音频、眼动追踪数据等。
IMPACT is a dataset for multi-granularity human procedural action understanding in industrial assembly, which contains multi-view RGB videos, depth data, egocentric audio, eye-tracking data, and more.
创建时间:
2026-03-31
原始信息汇总
IMPACT 数据集概述
数据集基本信息
- 数据集名称:IMPACT
- 全称:IMPACT: A Dataset for Multi-Granularity Human Procedural Action Understanding in Industrial Assembly
- 核心用途:用于工业装配场景中多粒度人类程序性动作理解
数据内容与规模
- 数据模态:包含多视角RGB视频、深度图、自我中心音频、自我中心眼动追踪数据、预提取特征以及标注。
- 数据规模:
- 五视角RGB视频存档:约132 GB
- 外中心深度存档:约46 GB
- 自我中心音频包:约200 MB
- 自我中心眼动追踪TSV包:约252 MB
- 预提取特征包(I3D, MViTv2, VideoMAEv2):约71 GB
- 标注包(annotations_v1.zip):约5.4 MB
- 快速启动样本:包含3次执行记录、多视角媒体、眼动追踪轨迹、特征和任务标注,约3.5 GB。
基准任务覆盖
数据集围绕以下任务族构建基准:
- 时序理解 (Temporal Understanding):
TAS - 跨视角理解 (Cross-View Understanding):
CV-TA,CV-SM - 动作预测 (Action Forecasting):
AF-S,AF-L - 状态与推理 (State & Reasoning):
PSR,ASR,PPR,ATR
数据发布与获取
- 主要发布地址:https://drive.google.com/drive/folders/1P7vBnxSVH9g_lQc5n0c0WA47QAGEhE_U?usp=sharing
- Hugging Face 镜像:https://huggingface.co/datasets/KratosWen/IMPACT
- 项目主页:https://kratos-wen.github.io/IMPACT/
代码库与资源
- 基准代码库:包含基准封装代码、协议资产、方法快照和网站源代码。
- 任务协议资产:位于
dataset/目录下。 - 基准封装器:位于
tasks/目录下,为TAS,CV-TA,CV-SM,AF-S,PSR,ASR,PPR,ATR提供可运行封装,并为AF-L提供任务协议和基线设计文档。
许可信息
采用分许可结构:
- 代码许可:
LICENSE文件覆盖仓库编写的代码、脚本和配置文件。 - 数据许可:
LICENSE-DATA文件覆盖dataset/下的数据集资产、仓库编写的文档(包括README、docs/下的文件、tasks/下的Markdown文档)。 - 第三方许可:
third_party/目录保留上游许可声明,方法快照在对应的README.md中记录外部引用。
搜集汇总
数据集介绍

构建方式
在工业装配场景中,为深入理解人类多粒度操作行为,IMPACT数据集通过系统化采集流程构建而成。数据采集过程涵盖了五路同步视角,包括一个自我中心视角和四个外部视角,同时整合了深度信息、自我中心音频及眼动追踪轨迹。标注工作遵循精细化的层次结构,从宏观流程到微观动作步骤均进行了详尽标注,确保了数据在时序理解、跨视角对齐及状态推理等任务上的适用性。
使用方法
研究人员可通过官方发布的Google Drive或Hugging Face镜像获取数据集完整资源,包括标注文件、多视角视频、特征包及快速入门样本。数据集按任务家族组织,如时序理解(TAS)、跨视角理解(CV)等,每个任务均配有标准化的协议资产与基准代码封装。用户可依据任务需求加载相应数据,利用提供的特征或原始多模态流,在统一的配置接口下进行模型训练与评估,以推动工业装配过程中人类操作行为的智能理解与预测。
背景与挑战
背景概述
在工业自动化与人工智能交叉领域,对复杂装配过程中人类操作行为的精细理解是提升生产效率与智能辅助系统的关键。IMPACT数据集由研究人员Kratos-Wen及其团队于近期创建,旨在推动多粒度人类程序性动作理解的研究。该数据集聚焦于工业装配场景,通过采集多视角视频、深度信息、音频及眼动追踪数据,构建了一个涵盖时间理解、跨视图理解、动作预测与状态推理等任务的综合性基准。其核心研究问题在于如何从多模态数据流中解析人类操作的层次化结构,从而为智能工业系统提供可解释的行为分析框架,对计算机视觉、人机交互及工业人工智能领域具有显著的推动作用。
当前挑战
IMPACT数据集致力于解决工业装配场景中人类程序性动作的多粒度理解问题,其核心挑战在于如何从多模态、多视角的异步数据流中实现动作的精确时序对齐与语义解析。构建过程中,研究人员面临数据采集与标注的复杂性挑战,包括在真实工业环境中同步记录五路视频、深度信息、音频及眼动追踪数据,并确保数据质量与一致性。此外,设计覆盖时间理解、跨视图对齐、长短期动作预测及状态推理的多样化任务协议,需平衡任务的科学性与实际可行性,这对数据集的标注规范与基准评估体系提出了极高要求。
常用场景
经典使用场景
在工业装配领域,人类程序性动作的理解是提升自动化与智能化水平的关键。IMPACT数据集通过多视角视频、深度信息、音频及眼动追踪等多模态数据,为研究者提供了丰富的实验基础。其经典使用场景集中于时序动作分割与识别,例如在装配流水线中,系统能够精准解析工人执行螺钉固定或部件组装等动作的起止时间与类别,从而实现对操作流程的细粒度监控与分析。
解决学术问题
该数据集有效解决了工业场景下程序性动作理解中的若干核心学术问题。针对动作时序边界模糊的挑战,IMPACT提供了精确的步骤级标注,支持时序动作分割模型的训练与评估。同时,其跨视角数据促进了视角不变性表征学习的研究,而动作预测任务则推动了模型对未完成序列的推理能力。这些贡献显著提升了动作理解模型在复杂工业环境中的鲁棒性与泛化性能。
实际应用
在实际工业应用中,IMPACT数据集为智能制造与质量控制提供了有力支撑。基于该数据集训练的模型可部署于智能装配线,实时监测工人操作是否符合标准流程,及时识别遗漏或错误步骤,辅助进行生产培训与效率优化。此外,结合眼动追踪数据,系统能够分析工人的注意力分布,为工效学设计与人机协作界面优化提供数据驱动的见解。
数据集最近研究
最新研究方向
在工业装配场景中,人类程序性动作理解正朝着多粒度、多模态融合的方向深化。IMPACT数据集凭借其丰富的多视角视频、深度信息、音频及眼动追踪数据,为这一领域注入了新的活力。当前研究热点聚焦于跨视图动作识别与同步、长时程动作预测以及基于物理状态推理的智能决策,这些方向旨在提升机器对复杂装配流程的感知与理解能力,推动智能制造向更自主、更灵活的自动化系统演进。该数据集的发布不仅为学术界提供了标准化的评估基准,也促进了工业界在智能质检、机器人协作等应用场景的技术落地,具有显著的学术与工程价值。
以上内容由遇见数据集搜集并总结生成



