five

IndustReal

收藏
arXiv2023-10-26 更新2024-06-21 收录
下载链接:
https://github.com/TimSchoonbeek/IndustReal
下载链接
链接失效反馈
官方服务:
资源简介:
IndustReal是一个多模态的第一人称视频数据集,由埃因霍温理工大学创建。该数据集包含27名参与者在类似工业环境中执行组装和维护任务的视频,特别关注执行错误。数据集包含38种错误,其中14种仅出现在验证和测试集中,适合评估算法对新错误的鲁棒性。此外,所有部件的3D模型都是公开的,以促进合成数据在程序动作理解中的使用。IndustReal旨在解决程序步骤识别(PSR)任务,通过识别正确的完成和程序步骤的顺序,为工业领域的自动化理解提供支持。

IndustReal is a multimodal first-person video dataset created by Eindhoven University of Technology. This dataset contains videos of 27 participants performing assembly and maintenance tasks in an industrial-like environment, with a specific focus on execution errors. It includes 38 types of errors, 14 of which only appear in the validation and test sets, making it suitable for evaluating the robustness of algorithms against novel errors. Additionally, 3D models of all components are publicly available to facilitate the use of synthetic data in procedural action understanding. IndustReal is designed to address the Program Step Recognition (PSR) task, which involves identifying correct task completions and the sequence of procedural steps, to support automated understanding in the industrial domain.
提供机构:
埃因霍温理工大学
创建时间:
2023-10-26
搜集汇总
数据集介绍
main_image_url
构建方式
在工业程序理解的研究领域,数据集的构建需高度模拟真实场景的复杂性与严谨性。IndustReal数据集通过27名参与者在受控工业环境中,使用基于STEMFIE的开源3D打印拼装玩具车,执行装配与维护两项程序任务。数据采集采用HoloLens 2混合现实头显,以自我中心视角同步记录多模态信息,包括RGB图像、立体视觉、深度图、红外传感以及头部姿态、手部关节和视线追踪数据。为确保数据的代表性与可复现性,所有零件均公开3D模型,并在白色背景的标准化照明条件下录制,以模拟工业环境的一致性。数据标注涵盖动作识别、装配状态检测及新颖的程序步骤识别任务,并依据参与者而非视频进行划分,以保障训练、验证与测试集在视角和执行方式上的充分差异性。
特点
IndustReal数据集的核心特征在于其针对工业程序理解中执行错误的系统性涵盖与评估。与现有数据集相比,它首次同时包含了程序性错误(如步骤遗漏)与执行性错误(如零件安装错误),其中14种错误类型专属于验证集与测试集,旨在评估算法对未见错误的鲁棒性。数据集采用子目标导向的执行范式,允许参与者在子目标间灵活决定执行顺序,共包含48种不同的执行序列,更贴近实际工业程序的层次性与灵活性。此外,所有零件的开源3D几何模型为利用合成数据进行可扩展研究(如模拟到真实的域适应)提供了坚实基础,而全3D打印的零件设计则确保了数据集的长期可复现性与社区扩展潜力。
使用方法
IndustReal数据集为计算机视觉领域,特别是工业程序理解任务,提供了多任务评估基准。研究者可利用其丰富的多模态数据与精细标注,开展动作识别、装配状态检测及程序步骤识别的研究。对于程序步骤识别这一新颖任务,数据集提供了明确的评估指标,包括程序顺序相似度、F1分数与平均延迟,以全面衡量算法在识别步骤正确完成、顺序及及时性方面的性能。使用时可遵循数据集提供的基准划分,在训练集上开发模型,并在包含专属错误的验证集与测试集上评估其泛化能力与鲁棒性。开源代码、模型权重及3D模型进一步支持了研究的可复现性,并鼓励通过合成数据生成与域适应技术探索算法的可扩展性。
背景与挑战
背景概述
在工业自动化与计算机视觉交叉领域,对程序性任务的理解长期聚焦于动作识别,却缺乏对动作执行成功与否的量化评估。为填补这一空白,埃因霍温理工大学与ASML研究院的研究团队于2024年联合推出了IndustReal数据集。该数据集以第一人称视角记录了27名参与者在工业模拟环境中组装和维护玩具车的多模态视频,核心研究目标是推动程序步骤识别这一新颖任务的发展,即不仅识别已执行的动作,更关注步骤是否正确完成及其顺序。通过引入丰富的执行错误与程序错误,IndustReal为开发能够实时监测工业流程、预警潜在失误的智能辅助系统提供了关键数据基础,显著提升了程序性活动理解在工业应用中的实用价值。
当前挑战
IndustReal数据集致力于解决的领域挑战在于程序步骤识别,这要求算法不仅能辨识视频中的动作,还需判断每个步骤是否被正确且完整地执行,并处理灵活多变的执行顺序。传统动作识别方法在此面临局限,因为它们通常忽略动作的实际完成状态与结果。在数据集构建过程中,研究者遭遇了多重挑战:首先,工业环境中连续步骤间的视觉差异往往极其细微,如螺丝是否正确拧入特定部件需精细的视觉理解;其次,收集大规模程序性任务数据颇为困难,因这类任务通常 specialized且执行频率低;此外,为确保算法对未见错误的鲁棒性,需在验证集与测试集中刻意纳入多样化的执行错误,这增加了数据标注的复杂性与质量控制难度。
常用场景
经典使用场景
在工业自动化与计算机视觉领域,IndustReal数据集为程序步骤识别任务提供了关键支持。该数据集通过第一人称视角视频,记录了参与者组装和维护玩具汽车的详细过程,涵盖了多种执行错误和程序错误。其经典使用场景在于训练和评估算法在复杂工业环境中识别正确完成的步骤及其顺序,尤其注重处理未见的执行错误,从而推动程序性活动理解的研究进展。
解决学术问题
IndustReal数据集主要解决了程序性任务理解中的核心学术问题。传统动作识别方法仅关注动作执行,而忽略步骤完成的正确性;组装状态检测则受限于视觉相似性和状态组合爆炸问题。该数据集通过定义程序步骤识别任务,填补了这两者之间的空白,使算法能够利用程序知识,识别步骤的正确完成与顺序,从而提升对工业流程的鲁棒性理解,并为处理分布外错误提供了评估基准。
衍生相关工作
IndustReal数据集衍生了一系列经典研究工作,主要集中在程序步骤识别算法的优化与扩展。例如,基于该数据集的基准实验比较了SlowFast和MViTv2等模型在动作识别任务上的性能,并探索了多模态融合策略。同时,研究利用YOLOv8进行组装状态检测,结合合成数据训练提升泛化能力。这些工作不仅推动了程序性理解领域的发展,还为工业环境中的实时错误处理与流程监控提供了新的方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作