Assembly101
收藏arXiv2022-05-01 更新2024-06-21 收录
下载链接:
https://assembly-101.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
Assembly101是一个大规模的多视角视频数据集,专注于理解程序性活动。该数据集由新加坡国立大学创建,包含4321个视频,记录了人们组装和拆卸101种“拆解”玩具车辆的过程。参与者在没有固定指导的情况下工作,序列展示了动作顺序、错误和修正的丰富自然变化。Assembly101是第一个多视角动作数据集,同时包含静态(8个)和自我中心视角(4个)的录制。序列被标注了超过10万个粗略和100万个细粒度动作段,以及1800万个3D手势。我们针对三个动作理解任务进行了基准测试:识别、预期和时间分割。此外,我们还提出了一个检测错误的新任务。独特的录制格式和丰富的标注集使我们能够研究对新玩具的泛化、跨视角转移、长尾分布以及姿态与外观的关系。我们预见Assembly101将作为一个新的挑战,用于研究各种活动理解问题。
Assembly101 is a large-scale multi-view video dataset focused on procedural activity understanding. Developed by the National University of Singapore, it contains 4,321 videos capturing human assembly and disassembly of 101 types of disassemblable toy vehicles. Participants worked without fixed instructions, and the sequences exhibit rich natural variations in action sequences, errors, and corrective actions. Assembly101 is the first multi-view action dataset that incorporates both static (8) and egocentric (4) camera perspectives. The dataset's sequences are annotated with over 100,000 coarse-grained and 1 million fine-grained action segments, as well as 18 million 3D gestures. We conducted benchmark evaluations for three core action understanding tasks: action recognition, action anticipation, and temporal segmentation. Additionally, we propose a novel error detection task. The unique recording format and rich annotation suite enable investigations into generalization to novel toys, cross-view transfer, long-tailed distributions, and the relationship between pose and appearance. We envision Assembly101 as a new challenging benchmark for studying a wide range of activity understanding problems.
提供机构:
新加坡国立大学
创建时间:
2022-03-28
搜集汇总
数据集介绍

构建方式
Assembly101数据集的构建方式采用了多视角录制与标注的策略。该数据集包含了362个参与者组装和拆卸101种“拆卸式”玩具车辆的362个独特序列,总计4321个视频,总时长513小时。录制过程中使用了8个静态视角和4个第一人称视角,以获取更全面的数据。此外,数据集还标注了超过100万个粗粒度和1000万个细粒度动作片段,以及1800万个3D手部姿势。数据集的构建旨在为动作理解任务提供丰富的数据支持,包括动作识别、动作预测、时间动作分割和错误检测等。
特点
Assembly101数据集的特点主要体现在以下几个方面:1) 目标导向的自由风格流程:数据集中的活动序列没有固定的指令,参与者可以根据自己的理解和目标自由地完成组装和拆卸任务;2) 丰富的序列变化:由于参与者的技能水平不同,录制过程中出现了许多真实的动作顺序变化、错误和修正;3) 同步的静态和第一人称视角:数据集包含了静态和第一人称视角的同步录制,这为研究不同视角之间的差异和手部与物体交互提供了便利;4) 多粒度动作片段和错误标签:数据集标注了细粒度和粗粒度动作片段,并标注了参与者的技能水平和错误情况,为研究目标导向的序列学习和3D手部与物体交互识别提供了支持。
使用方法
Assembly101数据集的使用方法主要包括以下几个方面:1) 动作识别:数据集可用于训练动作识别模型,以识别和预测参与者在组装和拆卸任务中的动作;2) 动作预测:数据集可用于训练动作预测模型,以预测参与者在接下来的时间步中可能执行的动作;3) 时间动作分割:数据集可用于训练时间动作分割模型,以将视频序列分割成不同的动作片段;4) 错误检测:数据集可用于训练错误检测模型,以识别参与者在组装和拆卸任务中的错误和修正。此外,数据集还可以用于研究不同视角之间的差异、手部与物体交互、长尾分布、技能水平和外观与姿态之间的关系。
背景与挑战
背景概述
在日常生活中,组装和拆卸任务,如组装家具或拆卸家用电器进行维修,是司空见惯的。我们通常依赖纸质手册或在线教学视频来指导我们完成这些任务。下一代智能助手,连同增强现实(AR)硬件,可以在更具象化的环境中帮助我们。智能系统能够共同考虑指令或目标以及现实世界的观察结果,可以极大地推进AR应用程序。Assembly101数据集旨在解决这些问题,它是一个包含4321个视频的大型多视角视频数据集,其中展示了人们组装和拆卸101种“可拆卸”玩具车辆的过程。参与者在没有固定指令的情况下工作,序列中包含了丰富的动作顺序、错误和纠正的自然变化。Assembly101是第一个多视角动作数据集,具有同时的静态(8个)和第一人称视角(4个)记录。序列被注释了超过10万个粗略和100万个细粒度的动作片段,以及1800万个3D手部姿势。
当前挑战
Assembly101数据集的研究背景和挑战主要集中在以下几个方面:
1) 所解决的领域问题:Assembly101旨在解决组装和拆卸任务中的动作理解问题,包括动作识别、动作预测和动作时间分割等。该数据集通过提供丰富的多视角记录和细粒度注释,为研究这些任务提供了新的挑战和机遇。
2) 构建过程中的挑战:在构建Assembly101数据集的过程中,研究人员面临着多种挑战。首先,如何确保参与者在没有固定指令的情况下能够自然地进行组装和拆卸任务,以捕获真实的动作顺序、错误和纠正。其次,如何设计高效且准确的注释工具,以便对大量的视频序列进行细粒度注释。此外,如何处理数据集中存在的长尾分布问题,即某些动作类别的数据量远大于其他类别,这对模型的泛化能力提出了挑战。
常用场景
经典使用场景
Assembly101 数据集作为理解程序性活动的多视图视频数据集,其经典使用场景在于对目标导向的自由式程序进行理解。该数据集包含 4321 个视频,展示了人们组装和拆卸 101 种“拆卸”玩具车辆的序列。参与者没有固定的指令,序列特征丰富,包括动作顺序的自然变化、错误和纠正。Assembly101 是第一个多视图动作数据集,具有同时静态(8 个)和第一人称(4 个)记录。序列被标注了超过 100K 粗粒度和 1M 细粒度动作片段,以及 18M 3D 手部姿态。Assembly101 可用于动作识别、预测和时序分割等任务,为研究动作理解提供了新的挑战。
衍生相关工作
Assembly101 数据集衍生了许多相关的经典工作,例如:1)动作识别和预测:使用 TSM、2s-AGCN 和 MS-G3D 等模型对细粒度动作进行识别和预测;2)时序动作分割:使用 MS-TCN++ 和 C2F-TCN 等模型对动作进行时序分割;3)错误检测:使用 TempAgg 模型对组装序列中的错误进行检测。
数据集最近研究
最新研究方向
Assembly101 数据集的引入标志着在理解程序性活动领域的一次重要进展。该数据集的独特之处在于其多视角记录,包括静态和第一人称视角,以及丰富的注释,如超过100万粗粒度和1000万细粒度动作片段,以及1800万个3D手部姿态。这使得Assembly101成为研究多视角动作识别、泛化到新玩具、跨视角迁移、长尾分布和姿态与外观之间差异的理想平台。此外,Assembly101还引入了一个新颖的任务:检测错误,这对于增强现实(AR)辅助工具的开发具有重要意义。该数据集的发布为智能系统在动作理解任务,如识别、预测和时序分割方面的发展提供了新的挑战和机遇。
相关研究论文
- 1Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities新加坡国立大学 · 2022年
以上内容由遇见数据集搜集并总结生成



